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献 词 


致 约瑟夫 与 米 说 。 


BERE 


这 是 我 翻译 的 第 三 本 书 了， 前 两 本 分 别 是 《信息 检索 导论 》 和 《大 数 
18: 大 规模 互联 网 数据 挖掘 与 分 布 式 处 理 》。 与 图 灵 公 司 有 了 这 两 次 
合作 后 ， 我 们 一 直 保 持 着 十 分 密切 的 联系 。2012 年 11 月 ， 图 灵 的 编辑 
和 我 说 ， 这 本 书 的 原 译 者 不 能 继续 翻译 了 ， 问 我 能 人 否 续 详 后 面 的 十 二 
章 。 我 翻阅 了 一 下 ， 觉 得 这 本 书 不 错 ， 能 帮助 不 少 人 ， 于 是 很 快 束 接 
下 了 这 个 翻译 任务 ， 并 在 11 月 上 确 局 动 了 我 的 第 三 次 图 灵 翻 译 之 旅 。 


我 翻译 的 这 三 本 书 分 别 涉及 信息 检索 、 数 据 控 据 和 机 器 学 习 。 虽 然 这 
儿 个 领域 各 不 相同 ， 但 是 它们 之 间 有 大 十 分 密切 的 关联。 信和 单 地 说 ， 

机 器 学 习 算 法 在 包含 信息 检索 和 数据 挖掘 在 内 的 多 个 领域 中 都 有 着 十 
分 广泛 的 应 用 。 现 代 互联 网 中 的 搜索 引擎 、 社 区 网 络 、 推 荐 引擎 、 计 
算 三 告 、 电 子 商 务 等 应 用 中 ， 都 包含 大 量 的 机 天 学 习 算 法 。“ 机 融 学 

习 ?” 已 经 成 为 学 术 界 和 工业 弄 灾 手 可 热 的 术语 。 了 解 机 融 学 习 算法 ， 韦 
很 多 研究 人 员 和 互联 网 从 业 人 员 的 基本 要 求 。 


翻译 本 书 期 间 ， 业 界 和 研究 界 也 出 现 了 大 量 热点 名 词 ， 包 括 “ 大 数 
te” (big data) ` REJ” (deep learning) 、“ 知 识 图 

W” (knowledge graph) 等 ， 基 于 社交 网 络 的 研究 和 应 用 也 层出不穷 。 
可 以 说 ， 机 絮 学 习 与 这 些 名 词 之 则 都 具有 十 分 密切 的 联系 ， 了 解 机 咒 
学 习 对 于 把 握 业 界 和 人 研究 界 的 脉搏 至 天 重要 。 


本 书 没有 从 理论 角度 来 揭示 机 器 学 习 算法 背后 的 数学 原理 ， 而 是 通 
过 “原理 简 述 + 问题 实例 + 实际 代码 + 运行 效果 "来 介绍 每 一 个 算法 。 学 习 


计算 机 的 人 都 知道 ， 计 算 机 是 一 门 实践 学 科 ， 没 有 真正 实现 运行 ， 很 
难 真正 理解 算法 的 精 艇 。 这 本 书 的 最 大 好 处 瓯 是 边 学 边 用 ， 非 党 适合 
于 和 急需 迈进 机 需 学 习 领 域 的 人 员 学 习 。 实 际 上 ， 即 使 对 于 那些 对 机 器 
通过 代码 实现 也 能 进一步 加 深 对 机 器 学 习 算 
TAB f o 


本 书 的 代码 采用 Python 语言 编写 。Python 代 码 简单 优雅 、 易 于 上 手 ， 科 
学 计算 软件 包 众多 ， 已 经 成 为 不 少 大 学 和 研究 机 构 进行 计算 机 教学 和 
科学 计算 的 语言 。 相 信 Python 编 写 的 机 器 学 习 代码 也 能 让 读者 尽快 领略 
到 这 门 学 科 的 精妙 之 处 。 


由 于 个 人 精力 有 限 ， 加 上 时 间 紧 迫 ， 和 前 两 本 书 都 是 独立 翻译 有 所 不 
同 ， 本 书 邀 请 了 多 名 颇具 实力 的 译 者 共同 完成 。 全 书 共 包括 15 章 4 个 附 
录 ， 曲 亚 东 翻译 第 1 一 3 章 ， 李 鹏 博士 翻译 第 4、10、11、12 章 及 附录 
A、B， 李 锐 博 士 翻译 第 5、8、9、15 章 及 附录 C、D， 王 斌 翻译 第 6、 
7、13、14 章 及 其 他 部 分 并 审 校 全 文 。 


感谢 翻译 过 程 中 图 灵 公 司 谢 工 、 传 志 红 、 李 铭 、 郭 志 敏 、 刘 紫 凤 等 人 
给 予 的 帮助 ， 感 谢 所 有 译 者 的 家 人 朋友 一 如 既往 的 文 持 和 鼓励 ， 感 谢 
所 有 帮助 和 指导 过 我 们 的 人 。 

由 于 译 者 水 平 有 限 ， 书 中 难免 会 有 下 漏 ， 还 望 读者 不 将 提出 意见 和 建 
议 。 同 前 儿 本 书 一 样 ， 本 书 的 勘误 也 会 在 网 上 及 时 公布 ， 地 址 在 : 
http://ir.ict.ac.cn/~wangbin/mli-book。 读 者 可 以 通过 邮件 
wbxjj2008@gmail.com 或 者 新 浪 微 博 和 我 联系 。 
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2013 年 1 月 15 日 凌晨 于 中 关 村 
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大 学 毕业 后 ， 我 先后 在 加 利 福 尼 亚 和 中 国 大 陆 的 Intel 公 司 工作 。 最 初 ， 
我 打算 工作 两 年 之 后 回 学 校 恋人 研究生， 但 是 往往 时 光 飞 渤 而 过 ， 转 服 
就 过 去 了 六 年 。 那 时 ， 我 意识 到 我 必须 回 到 校园 。 我 不 想 上 夜校 或 进 


行 在 线 学 习 ， 我 束 想 坐 在 大 学 校园 里 吸纳 学 校 传授 的 所 有 知识 。 在 大 
学 里 ， 最 好 的 方面 不 是 你 研修 的 这 程 或 从 事 的 研究 ， 而 古 一 些 外 围 活 
oe oR 
HWA e 


在 2008 年 ， 我 帮助 筹备 一 个 招聘 会 。 我 同一 个 大 型 金融 机 构 的 人 交 
谈 ， 他 们 希望 我 去 应 聘 他 们 机 构 的 一 个 对 信用 建 模 〈 判 断 某 人 是 否 会 
偿还 贷款 ) 的 岗位 。 他 们 问 我 对 随机 分 析 了 解 多 少 ， 那 时 ， 我 并 不 能 
确定 “随机 ”一 词 的 意思 。 他 们 提出 的 工作 地 点 令 我 无 法 接受 ， 所 以 我 
决定 不 再 考虑 了 “。 但 是 ， 他 们 说 的 “随机 ?证 我 很 感 兴趣 ， 于 是 我 拿 来 
课程 目录 ， 寻 找 含 有 “随机 ”字样 的 课程 ， 我 看 到 了 “离散 随机 系统 ”。 我 
MAEM BRT Tix, SRR AL, BUS, mA Ra 
课 教 授 发 现 。 但 是 她 很 仁慈 ， 让 我 继续 学 习 ， 这 让 我 非常 感激 。 上 这 
门 课 ， 古 我 第 一 次 看 到 将 概率 应 用 到 算法 中 。 在 这 之 前 ， 我 见 过 一 些 
算法 将 平均 值 作为 外 部 输入 ， 但 这 次 不 同 ， 方 差 和 均值 都 是 这 些 算 法 
中 的 内 部 值 。 这 门 课 主 要 讨论 时 间 序 列 数据 ， 其 中 每 一 段 数据 都 是 一 
个 均匀 隔 样 本 。 我 还 找到 了 名 称 中 包含 “机 占 学 习 ” 的 为 一 | ] 谋 程 。 该 
课程 中 的 数据 并 不 假设 满足 时 间 的 均 习 间隔 分 布 ， 它 包含 更 多 的 算 
法 ， 但 严谨 性 有 所 降低 。 再 后 来 我 意识 到 ， 在 经 济 系 、 电 子 工程 系 和 
计算 机 科学 系 的 谋 程 中 都 会 讲授 类 似 的 算法 。 


2009 年 初 ， 我 顺利 毕业 ， 并 在 硅谷 谋 得 了 一 份 软件 咨询 的 工作 。 接 下 
来 的 两 年 ， 我 先后 在 涉及 不 同 技术 的 八 家 公司 工作 ， 发 现 了 最 终 构 成 
这 本 书 主 题 的 两 种 趋势 ， 第 一 ， 为 了 开发 出 苋 争 力 强 的 应 用 ， 不 能 仅 
仅 连接 数据 源 ， 而 需要 做 更 多 事情 ; 第 二 ， 用 人 单位 硕 望 员 工 既 伐 理 
论 也 能 编程 。 程 序 员 的 大 部 分 工作 可 以 类 比 于 连接 管道 ， 所 不 同 的 
征 ， 程 序 员 连接 的 是 数据 流 ， 这 也 为 人 们 带 了 巨大 的 财富 。 举 一 个 例 
子 ， 我 们 要 开发 一 个 在 线 出 售 商品 的 应 用 ， 其 中 主要 部 分 是 允许 用 户 
来 发 布 商品 并 浏览 其 他 人 发 布 的 商品 。 为 此 ， 我 们 需要 建立 一 个 Wep 表 
单 ， 人 允许 用 户 输 入 所 和 售 商品 的 信息 ， 然 后 将 该 信息 传 到 一 个 数据 存储 
区 。 要 让 用 户 看 到 其 他 用 户 所 售 商品 的 信息 ， 束 要 从 数据 存储 区 获取 
这 些 数据 并 适当 地 显示 出 来 。 我 可 以 确信 ， 人 们 会 通过 这 种 方式 插 
钱 ， 但 是 如 采 让 要 应 用 更 好 ， 和 需要 加 入 一 些 智能 因素 。 这 些 智能 因素 
包括 目 动 删除 不 适当 的 发 布 信息 、 检 测 不 正当 交易 、 给 出 用 户 可 能 豆 
欢 的 商品 以 及 预测 网 站 的 流量 等 。 为 了 实现 这 些 目标 ， 我 们 需要 应 用 
机 融 学 习 方 法 。 对 于 最 终 用 户 而 言 ， 他 们 并 不 了 解 幕 后 的 “魔法 "， 他 
们 关心 的 是 应 用 能 有 效 运行 ， 这 也 是 好 产品 的 标志 。 


致谢 
这 是 目前 为 止 本 书 最 容易 写 的 部 分 .…… 


首先 ， 我 要 感谢 Manning 出 版 社 的 工作 人 员 ， 尤 其 是 本 书 的 编辑 Troy 
Mott， 如 果 没 有 他 的 支持 和 热情 帮助 ， 本 书 不 会 出 版 。 我 还 要 感谢 
Pu Spencer， 她 对 最 终 稿 进行 了 润色 ， 和 她 在 一 起 工作 相当 恰 
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我 推荐 了 论文 “Top 10 Algorithms in Data Mining" (数据 挖掘 十 大 算法 ) 
:， 促 成 了 本 书 的 写作 思路 。Mark Bauer ` Jerry Barkely ` Jose Zero ^ 
Doug Chang ` Wayne Carter 以 及 Tyler Neylon 对 本 书 亦 有 页 献 ， 在 此 一 并 
感谢 。 
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人 的 帮助 ， 这 本 书 吏 不 是 现在 这 个 样子 。 
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关于 本 书 


本 书 讲述 重要 的 机 右 学 习 算法 ， 并 介绍 那些 使 用 这 些 算 法 的 应 用 和 工 
具 ， 以 及 如 何在 实际 环境 中 使 用 它们 。 市面 上 已 经 出 版 了 很 多 关于 机 
绥 学 习 的 书籍 ， 大 多 数 讨论 的 是 其 育 后 的 数学 理论 ， 很 少 涉及 如 何 使 
用 编程 语言 实 现 机 絮 学 习 算 法 。 本 书 恰恰 相反 ， 更 多 地 讨论 如 何 编 码 
实现 机 妖 学 习 算 法 ， 而 尽量 减少 讨论 数学 理论 。 如 何 将 数学 矩阵 接 述 
Eo ere a nies 可 以 实际 工作 的 应 用 程序 ， 是 本 书 的 主要 目 


读者 对 象 


机 器 学 习 是 什么 ? 谁 需要 使 用 机 器 学 习 算法 ? 简 而 言 之 ， 机 器 学 习 可 

以 揭示 数据 背后 的 真实 含义 。 这 本 书 适合 有 数据 需要 处 理 的 读者 ， 也 

适合 于 想 要 获得 并 理解 数据 的 读者 。 如 果 读者 有 一 些 编程 概念 (比如 

递归 ) ， 并 且 了 解 一 些 数据 结构 (比如 树 结构 ， 那 么 将 有 助 于 本 书 

的 阅读 。 即 使 不 具备 线性 代数 和 概率 论 的 知识 ， 也 能 从 本 书 获 益 ， 但 

是 如 果 读 者 具有 线性 代数 和 概率 论 的 入 门 知 识 ， 那 么 也 会 利于 本 书 的 

阅读 。 此 外 ， 本 书 使 用 Python 语 言 进行 编程 ， 它 过 去 也 被 称 作 “ 可 执行 
的 伪 代 码 ”。 本 书 假定 读者 有 一 些 基本 的 Python 编程 知识 ， 不 过 不 知道 
人 
\ 困 难 。 


数据 挖掘 十 大 算法 


BELA ET ANE RR ee HAY, ASA A eR Pe 
一 一 “数据 挖 据 十 大 算法 ”是正 EE 数 据 挖掘 国际 会 议 (ICDM) 上 的 一 篇 


论文 ，2007 年 12 月 在 Journal of Knowledge andInformation Systems2& i 
上 上 发表。 依据 知 识 发 现 和 数据 挖掘 国际 会 议 (KDD) 获奖 者 的 问卷 调 
查 结 采 ， 论 文 统计 出 排名 前 十 的 数据 挖 据 算法 。 本 书 的 基本 框 染 与 论 
文中 提 到 的 算法 基本 一 人 至。 聪明 的 读者 可 能 已 经 注意 到 ， 虽 然 论文 只 
给 出 了 十 个 重要 的 数据 挖掘 算法 ， 但 本 书 却 有 十 五 章 。 下 面 我 会 给 出 
解释 ， 这 里 我 们 先 看 看 排名 前 十 的 数据 挖 气 算 法 。 


论文 选 出 的 机 器 学 习 算法 包括 : C4.5 决 策 树 、K- 均 值 (K-mean ^ x 
持 向 量 机 (SVM) 、Apriori、 最 大 期 望 算法 (EM) 、PageRank 算 法 、 
AdaBoost 算 法 、k- 近 邻 算 法 (KNN) 、 朴 素 贝 叶 斯 算法 (NB) 和 分 类 
回归 树 (CART) 算法 。 本 书包 含 了 其 中 的 8 个 算法 ， 没 有 包括 最 大 期 
望 算法 和 PageRank 算 法 。 本 书 没有 包括 PageRank 算 法 ， 是 因为 搜索 引 
擎 巨头 Google 引 入 的 PageRank 算 法 已 经 在 很 多 车 作 里 得 到 了 充分 的 论 
述 ， 没 有 必要 进一步 累 述 ;而 最 大 期 望 算 法 没有 纳入 ， 是 因为 涉及 太 
多 的 数学 知识 ， 如 果 它 像 其 他 算法 那样 简化 成 一 章 ， 就 无 法 讲述 清楚 
算法 的 核心 ， 有 兴趣 的 读者 可 以 参阅 相关 材料 。 


本 书 结构 
本 书 由 四 大 部 分 15 章 和 4 个 附录 组 成 。 
第 一 部 分 分 类 


本 书 并 没有 按照 “数据 控 据 十 大 算法 ”的 次 序 来 介绍 机 器 学 习 算 法 。 第 
一 部 分 首先 介绍 了 机 器 学 习 的 基础 知识 ， 然 后 讨论 如 何 使 用 机 器 学 习 
算法 进行 分 类 。 第 2 章 介 绍 了 基本 的 机 絮 学 习 算 法 k- 近 领 算法 ， 第 3 章 
是 本 书 第 一 次 讲述 决策 树 ， 第 4 章 讨 论 如 何 使 用 概率 分 布 算法 进行 分 类 
以 及 朴素 贝 叶 斯 算法 ;第 5 章 介绍 的 Logistic 回 归 算 法 虽然 不 在 排名 前 十 
的 列表 中 ， 但 是 引入 了 算法 优化 的 主题 ， 也 是 非常 重要 的 ， 这 一 章 最 
后 还 讨论 了 如 何 处 理 数 据 集合 中 的 缺失 值 ; 第 6 章 讨论 了 强大 而 流行 的 
支持 向 量 机 ;第 7 革 讨 论 AdaBoost 集 成 方法 ， 它 也 是 本 书 讨论 分 类 机 器 
学 习 算 法 的 最 后 一 章 ， 这 一 章 还 讨论 了 训练 样本 非 均 匀 分 布 时 所 引发 
的 非 均衡 分 类 问题 。 


第 二 部 分 利用 回归 预测 数值 型 数据 


第 二 部 分 包含 两 章 ， 讨 论 连 续 型 数值 的 回归 预测 问题 。 第 8 章 主要 讨论 
了 回归 、 去 噪 和 局 部 加 权 线 性 回归 ， 此 外 还 讨论 了 机 器 学 习 算法 必须 
考虑 的 偏差 方差 折 中 问题 。 第 9 章 讨 论 了 基于 树 的 回归 算法 和 分 类 回归 
树 (CARD 算法 。 


第 三 部 分 无 监督 学 习 


前 两 部 分 讨论 的 监督 学 习 需 要 用 户 知道 目标 值 ， 简 单 地 说 就 是 知道 在 
数据 中 寻找 什么 。 而 第 三 部 分 开始 讨论 的 无 监督 学 习 则 无 需 用 户 知道 
搜寻 的 目标 ， 只 需要 从 算法 程序 中 得 到 这 些 数据 的 共同 特征 。 第 10 章 
讨论 的 无 监督 学 习 算 法 是 k- 均 值 聚 类 算法 ;第 11 章 研究 用 于 关联 分 析 的 
Apriori 算 法 ; 第 12 章 讨论 如 何 使 用 FP-Growth 算 法 改进 关联 分 析 。 


第 四 部 分 其 他 工具 


本 书 的 第 四 部 分 介绍 机 器 学 习 算法 使 用 到 的 附属 工具 。 第 13 章 和 第 14 
章 引 入 的 两 个 数学 运算 工具 用 于 消除 数据 噪声 ， 分 别 是 主 成 分 分 析 和 
奇异 值 分 解 。 一 旦 机 需 学 习 算 法 处 理 的 数据 集 扩 张 到 无 法 在 一 台 计 算 
机 上 完全 处 理 时 ， 就 必须 引入 分 布 式 计算 的 概念 ， 本 书 最 后 一 章 将 介 
ZiMapReduceZ&Ef5 » 


示例 


本 书 的 许多 示例 演示 了 如 何在 现实 世界 中 使 用 机 右 学 习 算法 ， 通 肖 我 
们 按照 下 面 的 步骤 保证 算法 应 用 的 正确 性 : 


1. 确保 算法 应 用 可 以 正确 处 理 催 单 的 数据 
2. 将 现实 世界 中 得 到 的 数据 格式 化 为 算法 可 以 处 理 的 格式 ; 
E 的 数据 输入 到 步 又 1 的 算法 中 ， 检 验算 法 的 运行 结 


千 万 不 要 名 略 前 两 个 步 怠 而 直接 跳 到 步 又 3 来 检验 算法 处 理 真 实数 据 的 
效果 。 任 何 复杂 系统 都 是 由 基础 工程 构成 的 ， 尤 其 是 算法 出 现 问题 
时 ， 增 量 地 搭建 系统 可 以 确保 我 们 及 时 找到 问题 出 现 的 位 置 和 原因 。 
如 朱 刚 开始 束 把 这 些 扒 砌 在 一 起 ， 我 们 束 很 难 发 现 到 搬 羡 不 准确 的 算 
法 实现 引发 的 问题 还 是 数据 格式 的 问题 。 此 外 ， 本 书 在 实现 算法 的 过 
程 中 ， 记 录 了 很 多 注意 事项 ， 将 有 助 于 读者 深入 了 解 机 器 学 习 算法 。 


代码 约定 和 下 载 


本 书 正文 和 程序 清单 中 的 源 代码 都 使 用 等 宽 字 体 。 一 些 程序 清单 中 包 
含 了 代码 注解 ， 以 突出 其 中 组 含 的 重要 概念 。 在 某 些 场合 ， 市 编号 的 
程序 注释 会 在 程序 清单 之 后 进一步 解释 说 明 。 

本 书 所 有 源 代 码 均 可 在 英文 版 出 版 商 的 网 站 上 下 载 : 


http://www.manning.com/MachineLearninginAction ° ' 


1 读者 也 可 以 访问 图 灵 社 区 本 书页 面 提 交 勘 误 或 下 载 源 代码 ， 网 址 是 http://ituring.com.cn/book/1021 ° 


作者 在 线 


本 书 的 读者 还 可 以 访问 出 版 商 Manning 的 网 络 论 坛 。 在 论坛 上 读者 可 以 
评论 本 书 的 内 容 ， 讨 论 技术 问题 ， 得 到 作者 或 其 他 用 户 的 帮助 。 为 了 
使 用 和 订阅 论坛 ， 请 访问 
http;//www.manning,com/MachineLearninginAction ， 该 网 页 包含 如 何 注 
册 论 坛 、 如 何 获 取 帮 助 以 及 论坛 的 行为 规则 。 


出 版 商 Manning 对 读者 承 诡 ， 为 读 着 和 作者 提供 讨论 的 空间 。 作 者 目 愿 
参与 作者 在 线 论坛 ， 我 们 也 不 承诺 作者 参与 论坛 讨论 的 次 数 。 建 议 读 
者 尽量 问 作者 具有 挑战 性 的 问题 ， 以 免 痕 费 作者 的 宝 贯 时 间 。 


只 要 本 书 英 文 版 在 销售 ， 读 者 都 可 以 访问 英文 版 出 版 商 的 作者 在 线 论 
坛 ， 阅 读 以 前 的 讨论 文档 。 


关于 作者 


Peter Harrington 拥 有 电气 工程 学 士 和 硕士 学 位 ， 他 曾经 在 加 利 福 尼 亚 州 
和 中 国 的 Intel 公 司 工作 7 年 。Peter 拥 有 5 项 美国 专利 ， 在 三 种 学 术 期 刊 
上 发 表 过 文章 。 他 现在 是 Zillabyte 公 司 的 首席 科学 家 ， 在 加 入 该 公司 之 
前 ， 他 曾 担 任 2 年 的 机 噩 学 习 软 件 顾问 。Peter 在 业余 时 间 还 参加 编程 竞 
赛 和 建造 3D 打 印 机 。 


关于 封面 


本 书 封面 插画 的 标题 为 " 伊 斯 特 里 亚 人 " (“Man from Istria”， 伊 斯 特 里 
亚 是 克罗地亚 面向 亚 得 里 亚 海 的 一 个 很 大 半岛 ) 。 该 插画 来 自 克 罗 地 
亚 斯 普 利 特 民 族 博 物 馆 2008 年 出 版 的 Balthasar Hacquet 的 《图 说 西南 及 
东 汪 达尔 人 、 伊 利 里 亚 人 和 斯 拉夫 人 》 (Images and Descriptions of 
Southwestern and Eastern Wenda, Illyrians, and Slavs ) 的 最 新 重印 版 

AX ° Hacquet (1739-1815) 是 一 名 奥地利 内 科 医 生 及 科学 家 ， 他 花费 数 
年 时 间 去 研究 各 地 的 植物 、 地 质 和 人 种 ， 这 些 地 方 包括 奥 匈 帝国 的 多 
个 地 区 ， 以 及 伊利 里 亚 部 落 过 去 居住 的 (罗马 帝国 的 ) 威 尼 托 地 区 、 
尤 里 安 阿尔 摆 斯 山脉 及 西 巴 尔 干 等 地 区 。Hacquet 发 表 的 很 多 论文 和 书 
籍 中 都 有 手绘 插图 。 


Hacquet 出 版 物 中 丰富 多 样 的 插图 生动 地 描绘 了 200 年 前 西 阿尔 卑 斯 和 巴 
不 干 西北 地 区 的 独特 性 和 个 体 性 。 那 时 候 相 距 几 英里 的 两 个 村 庄村 民 
的 衣着 都 过 然 不 同 ， 当 有 社交 活动 或 交易 时 ， 不 同 地 区 的 人 们 很 容易 
通过 着 装 来 辨别 。 从 那 之 后 着 装 的 要 求 发 生 了 改变 ， 不 同 地 区 的 多 样 
性 也 逐渐 消亡 。 现 在 很 难说 出 不 同 大 陆 的 居民 有 多 大 区 别 ， 比 如 ， 现 
在 很 难 区 分 斯 洛 文 尼 亚 的 阿尔 摆 斯 山地 区 或 巴尔 干 沿海 那些 美丽 小 镇 
或 村 庄 里 的 居民 与 欧洲 其 他 地 区 或 美国 的 居民 。 


Manning 出 版 社 利 用 两 个 世纪 之 前 的 服 竣 来 设计 书籍 封面 ， 以 此 来 赞颂 
计算 机 产业 所 具有 的 创造 性 、 主 动 性 和 趣味 性 。 正 如 本 书 封面 的 独 族 
一 样 ， 这 些 图 片 也 把 我 们 市 回 到 过 去 的 生活 中 去 。 


第 一 部 分 分 类 


本 书 前 两 部 分 主要 探讨 监督 学 习 (supervised learning) 。 在 监督 学 习 
的 过 程 中 ， 我 们 只 需要 给 定 输入 样本 集 ， 机 器 就 可 以 从 中 推演 出 指定 
目标 变量 的 可 能 结果 。 


监督 学 习 相 对 比较 简单 ， 机 器 只 需 从 输入 数据 中 预测 合适 的 模型 ， 并 
从 中 计算 出 目标 变量 的 结果 。 监 督学 习 一 般 使 用 两 种 类 型 的 目标 变 
=: 标 称 型 和 数值 型 。 标 称 型 目标 变量 的 结果 只 在 有 限 目 标 集中 取 
值 ， 如 真 与 假 、 动 物 分 类 集合 { MTR ` BAR ` FLX ` AMR}; 数 
值 型 目标 变量 则 可 以 从 无 限 的 数值 集合 中 取 值 ， 如 0.100、42.001、 
1000.743 等 。 数 值 型 目标 变量 主要 用 于 回归 分 析 ， 将 在 本 书 的 第 二 部 


分 研究 ， 第 一 部 分 主要 介绍 分 类 。 


本 书 的 前 七 章 主 要 研究 分 类 算法 ， 第 2 章 讲 述 最 简单 的 分 类 算法 : k- 近 
邻 算 法 ， 它 使 用 某 种 距离 计算 方法 进行 分 类 ; 第 3 章 引 入 了 决策 树 ， 它 
比较 直观 ， 容 易 理 解 ， 但 是 相对 难于 实现 ; 第 4 章 将 讨论 如 何 使 用 概率 
论 建立 分 类 器 ; 第 5 章 将 讨论 Logistic 回归 ， 如 何 使 用 最 优 参数 正确 地 
分 类 原始 数据 ， 在 搜索 最 优 参 数 的 过 程 中 ， 将 使 用 几 个 经 第 用 到 的 优 
化 算法 ， 第 6 章 介 绍 了 非常 流行 的 支持 问 量 机 ， 第 一 部 分 最 后 的 第 7 章 
将 介绍 元 算法 一 一 AdaBoost， 它 由 寿 干 个 分 类 絮 构 成 ， 此 外 还 忌 结 

第 一 部 分 探讨 的 分 类 算法 在 实际 使 用 中 可 能 面 对 的 非 均 衡 分 类 问题 ， 

一 旦 训练 样本 某 个 分 类 的 数据 多 于 其 他 分 类 的 数据 ， 残 会 产生 非 均衡 


分 类 问题 。 


B1% ”机 器 学 习 基 础 


本 章 内 容 


。 机 器 学 习 的 简单 概述 
。 机 娇 学习 的 主要 任务 
。 学 习 机 器 学 习 的 原因 
。 Python 语 言 的 优势 


最 近 我 和 一 对 夫妇 共 进 晚餐 ， 他 们 问 我 从 事 什 么 职业 ， 我 回应 道 : “机 
器 学 习 。?” 妻 子 回 头 问 丈夫 : “亲爱 的 ， 什 么 是 机 器 学 习 ? ”她 的 丈夫 管 
id: “T800 型 终结 者 。” 在 《终结 者 》 系 列 电影 中 ， 工 800 是 人 工 智能 技 
术 的 反面 样板 工程 。 不 过 ， 这 位 朋友 对 机 器 学 习 的 理解 还 是 有 所 偏差 
的 。 本 书 既 不 会 探讨 和 计算 机 程序 进行 对 话 交 流 ， 也 不 会 与 计算 机 探 
讨 人 生 的 意义 。 机 器 学 习 能 让 我 们 自 数据 集中 受到 启发 ， 换 句 话说 ， 


我 们 会 利用 计算 机 来 彰显 数据 背后 的 真实 含义 ， 这 才 是 机 器 学 习 的 真 
PPM 3s 


现今 ， 机 器 学 习 已 应 用 于 多 个 领域 ， 远 超出 大 多 数 人 的 想象 ， 下 面 瑟 
苹 假 想 的 一 日 ， 其 中 很 多 场景 都 会 碰 到 机 器 学 习 :， 假设 你 想起 今天 是 
某 位 朋友 的 生日 ， 打 算 通 过 邮局 给 她 邮寄 一 张 生日 页 卡 。 你 打开 浏览 
堪 搜 索 趣 味 卡 片 ， 搜 索引 警 吕 示 了 10 个 最 相关 的 链接 。 你 认为 第 二 个 
链接 最 符合 你 的 要 求 ， 点 击 了 这 个 链接 ， 搜 索引 警 将 记录 这 次 点 击 ， 

并 从 中 学 习 以 优 化 下 次 搜索 结果 。 人 然后， 你 检查 电子 邮件 系统 ， 此 时 
垃圾 邮件 过 滤 需 已 经 在 后 台 目 动 过 滤 世 圾 广告 邮件 ， 并 将 其 放 在 垃圾 
箱 内 。 接 着 你 去 商店 购买 这 张 生日 卡片 ， 并 给 你 朋友 的 孩子 挑选 了 一 
些 尿布 。 结 账 时 ， 收 银 员 给 了 你 一 张 1 美 元 的 优惠 券 ， 可 以 用 于 购买 6 
鲍 装 的 啤酒 。 之 所 以 你 会 得 到 这 张 优惠 券 ， 古 因为 球台 收费 软件 基于 
以 前 的 统计 知识 ， 认 为 严 尿 布 的 人 往往 也 会 天 啤酒 。 然 后 你 去 邮局 邮 
寄 这 张 痪 卡 ， 手 写 识 别 软件 识别 出 邮寄 地 址 ， 并 将 锅 卡 发 送 给 正确 的 
邮 攻 。 当 天 你 还 去 了 贷 亚 申请 机 构 ， 查 看 目 己 是 否 能 够 申请 贷 称 ， 办 
事 员 并 不 是 直接 给 出 结果 ， 而 是 将 你 最 近 的 金融 活动 信息 输入 计算 

机 ， 由 软件 来 判定 你 是 否 合格 。 最 后 ， 你 还 去 了 赠 场 想 找 些 乐 子 ， 当 
你 步 入 前 门 时 ， 尾 随 你 进来 的 一 个 家 伙 被 突然 出 现 的 保安 给 拦 了 下 

来 。“ 对 不 起 ， 索 普 先 生 ， 我 们 不 得 不 请 您 离开 赌场 。 我 们 不 欢迎 老 
千 。” 图 1-1 集 中 展示 了 使 用 到 的 机 右 学 习 应 用 。 
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图 1-1 机 器 学 习 在 日 常生 活 中 的 应 用 ， 从 左上 和 角 按 照 顺 时 针 方 向 依次 
使 用 到 的 机 器 学 习 技 术 分 别 为 人 脸 识 别 、 手 写 数字 识别 、 垃 圾 邮件 
过 滤 和 亚马逊 公司 的 产品 推荐 


上 上 面 提 到 的 所 有 场景 ， 部 有 机 器 学 习 软 件 的 存在 。 现 在 很 多 公司 使 用 
机 器 学 习 软 件 改善 商业 决策 、 提 高 生产 率 、 检 测 疾病 、 预 测 天 气 ， 等 
等 。 随 着 技术 指数 级 增长 ， 我 们 不 仅 需 要 使 用 更 好 的 工具 解析 当前 的 
数据 ， 而 且 还 要 为 将 来 可 能 产生 的 数据 做 好 充分 的 准备 。 


现在 正式 进入 本 书 机 器 学 习 的 主题 。 本 章 我 们 将 首先 介绍 什么 是 机 天 
学 习 ， 日 党 生活 中 何 处 将 用 到 机 絮 学 习 ， 以 及 机 妖 学 习 如 何 改进 我 们 
的 工作 和 生活 ; 然后 讨论 使 用 机 器 学 习 解 决 问题 的 一 般 办 法 ， 最 后 介 
绍 为 什么 本 书 使 用 Python 语言 来 处 理 机 咒 学 习 问 题 。 我 们 将 通过 一 个 
Python 模块 NumPy 来 答 要 介绍 Python 在 抽象 和 处 理 甜 阵 运 算 上 的 优势 。 


1.1 何谓 机 器 学 习 


除却 一 些 无 天 紧要 的 情况 ， 人 们 很 难 直接 从 原始 数据 本 喘 获 得 所 需 信 
居 。 例 如 ， 对 于 垃圾 邮件 的 检测 ， 贷 测 一 个 单词 是否 存在 并 没有 大 大 
的 作用 ， 然 而 当 某 几 个 特定 单词 同时 出 现时 ， 再 辅 以 考察 邮件 长 度 及 
其 他 因素 ， 人 们 融 可 以 更 准确 地 判定 该 邮件 是否 为 垃圾 邮件 。 人 简单 地 
说 ， 机 器 学 习 束 是 把 无 序 的 数据 转换 成 有 用 的 信息 。 


机 器 学 习 横 跨 计算 机 科学 、 工 程 搁 术 和 统计 学 等 多 个 学 科 ， 和 需要 多 学 
科 的 专业 知识 。 稍 后 你 束 能 了 解 到 ， 它 也 可 以 作为 实际 工具 应 用 于 从 
政治 到 地 质 学 的 多 个 领域 ,解决 其 中 的 很 多 问题 。 甚 至 可 以 这 么 说 ， 
机 器 学 习 对 于 任何 需要 解释 并 操作 数据 的 领域 都 有 所 神 益 。 


机 妖 学 习 用 到 了 统计 学 知识 。 在 多 数 人 看 来 ， 统 计 学 不 过 是 企业 用 以 
炉 焰 产品 功能 的 一 种 诡计 而 已 。(Darell Huff 曾 写 过 一 本 《如 何 使 用 统 
Tuli) (How to Lie With Statistics) 的 书 ， 颇 具 讨 刺 意 味 的 是 ， 它 
也 是 有 史 以 来 卖 得 最 好 的 统计 学 书 。) 那 么 我 们 这 些 人 为 什么 还 要 利用 
统计 学 呢 ? 拿 工程 实践 来 说 ， 它 要 利用 科学 知识 来 解决 具体 问题 ， 在 
该 领域 中 ， 我 们 常会 面 对 那 种 解法 确凿 不 变 的 问题 。 假 如 要 编写 自动 
售 货 机 的 控制 软件 ， 那 束 最 好 能 让 它 在 任何 时 候 都 能 正确 运行 ， 而 不 
必 让 人 们 再 考虑 塞 进 的 钱 或 按 下 的 按钮 。 然 而 ， 在 现实 世界 中 ， 并 不 
是 每 个 问题 都 存在 确定 的 解决 方案 。 在 很 多 时 候 ， 我 们 都 无 法 透彻 地 
理解 问题 ， 或 者 没有 足够 的 计算 资源 为 问题 精确 建立 模型 ， 例 如 我 们 
无 法 给 人 类 活动 的 动机 建立 模型 。 为 了 解决 这 些 问题 ， 我 们 就 需要 使 


用 统计 学 知识 。 


在 社会 科学 领域 ， 正 确 率 达 60% 以 上 的 分 析 被 认为 是 非常 成 功 的 。 如 休 
能 准确 地 预测 人 类 当下 60% 的 行为 ， 那 束 很 棒 了 “。 这 怎么 可 以 呢 ? 难道 
我 们 不 应 该 一 直 都 保持 完美 地 预测 吗 ? 如 采 真 的 达 不 到 ， 是 否 意味 着 
我 们 做 错 了 什么 ? 


人 类 对 自身 的 极乐 有 着 必然 的 追求 。 由 此 生发 ， 我 们 为 何不 能 准确 地 
预测 人 们 所 参与 事件 的 结果 呢 ? ” 瞧 ! 这 些 问 题 承 十 分 经 典 。 我 们 不 可 
能 对 它们 建立 一 种 精确 模型 。 如 何 能 让 众生 以 同样 的 方式 获得 笠 福 ? 
很 难 ， 因 为 大 家 对 入 福 的 理解 都 是 迎 异 不 同 的 。 因 此 ， 即 使 人 们 能 达 
到 极乐 境地 这 一 假定 是 成 立 的 ， 但 如 此 复杂 的 笠 福 也 使 得 我 们 很 难 对 
其 建立 正确 的 模型 。 除 了 人 类 行为 ， 现 实 世界 中 存在 着 很 多 例子 ， 我 
pr puse IS eg M SIME 
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1.1.1 传感器 和 海量 数据 


里 然 我 们 已 从 互联 网 上 获取 了 大 量 的 人 为 数据 ， 但 最 近 却 涌现 了 更 多 
的 非 人 为 数据 。 传 感 器 拉 术 并 不 时 晓 ， 但 如 何 将 它们 接 入 互联 网 确实 
征 新 的 挑战 。 有 预测 表明 ， 在 本 书 出 版 后 不 入，20% 的 互联 网 非 视频 流 
量 都 将 由 物理 传感器 产生 : 。 


地 震 预 测 束 是 一 个 很 好 的 例子 ， 传 感 絮 收集 了 海量 的 数据 ， 如 何 从 这 
些 数 据 中 抽取 出 有 价值 的 信息 十 一 个 非 第 值得 研究 的 课题 。1989 年 ， 

洛 马 . 普 列 埃 塔 地 震 袭 击 了 北 加 利 福 尼 亚 州 ，63 人 死亡 ，3757 人 受伤 ， 

成 二 上 万 人 无 家 可 归 ; 人 然而， 相同 规模 的 地 震 2010 年 穴 击 了 海地 ， 死 
亡 人 数 却 超 过 23 万 。 洛 马 - 普 列 埃 塔 地 震 后 不 久 ， 一 份 研 究 报 告 宣称 低 
频 磁场 检测 可 以 预测 地 震 *， 但 后 续 的 研究 显示 ， 最 初 的 研究 并 没有 孝 
虚 诸 多 环境 因素 ， 因 而 存在 着 明显 的 缺陷 *“。 如 果 我 们 想 要 重 做 这 个 
研究 ， 以 便 更 好 地 理解 我 们 这 个 星球 ， 寻 找 预测 地 震 的 方法 ， 避 免 灾 
难 性 的 后 末 ， 那 么 我 们 该 如 何 入 手 才能 更 好 地 从 事 该 研究 呢 ? 我 们 可 
以 自己 掏 钱 购买 磁力 计 ， 然 后 再 买 一 些 地 来 安放 它们 ， 当 然 也 可 以 寻 
求 政府 的 帮助 ， 让 他 们 来 处 理 这 些 事 。 但 即便 如 此 ， 我 们 也 无 法 保证 
人 磁力 计 没有 受到 任何 干扰 ， 男 外 ， 我 们 又 该 如 何 获 取 人 磁力 计 的 读数 

呢 ? 这 些 都 不 是 理想 的 解决 方法 ， 使 用 移动 电话 可 以 低 成 本 的 解决 这 


个 问题 。 


现今 市 面 上 销售 的 移动 电话 和 和 省 能 手机 均 沉 有 三 轴 人 磁力 计 ， 和 湖 能 手机 
还 有 操作 系统 ， 可 以 运行 我 们 编写 的 应 用 软件 ， 十 儿 行 代码 就 可 以 让 
手机 按照 每 秒 上 百 次 的 频率 读 取 磁力 计 的 数据 。 此 外 ， 移 动 电话 上 已 
经 安装 了 通信 和 系统， 如果 可 以 说 服 人 们 安装 运行 磁力 计 读 取 软件 ， 我 
们 束 可 以 记录 下 大 量 的 磁力 计数 据 ， 而 附 市 的 代价 则 是 非常 小 的 。 除 
了 磁力 计 ， 智 能 电话 还 封装 了 很 多 其 他 传 感 右 ， 如 侦 航 率 陀 螺 仪 、 三 


| 


轴 加 速 计 、 温 度 传感器 和 GPS 接 收 器 ， 这 些 传 感 右 都 可 以 用 于 测量 研 
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移动 计算 和 传感器 产生 的 海量 数据 意味 着 未 来 我 们 将 面临 着 越 来 越 多 
的 数据 ， 如 何 从 海量 数据 中 抽取 到 有 价值 的 信息 将 是 一 个 非 党 重要 的 


诛 题 。 


1. 参见 http/www.gartner.com/it/page.jsp?id-876512 ，2010 年 7 月 29 日 早晨 4 点 36 分 检索 到 的 数据 。 


2. Fraser-Smith et al., “Low-frequency magnetic field measurements near the epicenter of the Ms 7.1 Loma Prieta earthquake," Geophysical Research Letters 17 ,no. 9 (August 1990), 


1465-68. 


3. W. H. Campbell, *Natural magnetic disturbance fields, not precursors, preceding the Loma Prieta earthquake," Journal of Geophysical Research 114, A05307, 


doi:10.1029/2008JA013932 (2009). 


4. J. N. Thomas, J. J. Love, and M. J. S. Johnston, *On the reported magnetic precursor of the 1989 Loma Prieta earthquake," Physics of the Earth and Planetary Interiors 173, no. 3-4 


(2009), 207-15. 


11.2 机 器 学 习 非 常 重要 


在 过 去 的 半 个 世纪 里 ， 发 达 国 家 的 多 数 工 作 岗 位 都 已 从 体力 劳动 转化 
为 脑力 劳动 。 过 去 的 工作 基本 上 都 有 明确 的 定义 ， 类 似 于 把 物品 从 A 处 
搬 到 B 处 ， 或 者 在 这 里 打 个 洞 ， 但 是 现在 这 类 工作 都 在 逐步 消失 。 现 今 
的 情况 具有 很 大 的 二 义 性 ， 类 似 于 “最 大 化 利润 > “最 小 化 风险 ”、“ 找 
到 最 好 的 市 场 案 上 略 *...... 诸 如 此 类 的 任务 要 求 都 已 成 为 剃 态 。 里 然 可 从 
互联 网 上 获取 到 海量 数据 ， 但 这 并 没有 简化 知识 工人 的 工作 难度 。 针 
对 具体 任务 搞 懂 所 有 相关 数据 的 意义 所 在 ， 这 正成 为 基本 的 技能 

求 。 正 如 合 歌 公司 的 首 司 经 济 学 家 Hal Varian 所 说 的 那样 : 


“我 不 断 地 告诉 大 家 ， 林 来 十 年 最 热门 的 职业 是 统计 学 家 。 很 多 人 认为 
我 是 开 玩 突 ， 谁 又 能 想到 计算 机 工程 师 会 是 20 世 纪 90 年 代 最 诱 人 的 职 
业 呢 ?如 何 解 释 数 据 、 处 理 数 据 、 从 中 抽取 价值 、 展 示 和 交流 数据 结 
朵 ， 在 霖 来 十 年 将 是 最 重要 的 职业 技能 ， 甚 至 是 大 学 ， 中 学 ， 小 学 的 
学 生 也 必需 具备 的 技能 ， 因 为 我 们 每 时 每 刻 都 在 接触 大 量 的 免费 信 

已， 如 何 理解 数据 、 从 中 抽取 有 价值 的 信息 才 是 其 中 的 关键 。 这 里 统 
计 学 家 只 是 其 中 的 一 个 关键 环节 ， 我 们 还 需要 合理 的 展示 数据 、 交 流 
和 利用 数据 。 我 确实 认为 ， 能 够 从 数据 分 析 中 领情 到 有 价值 信息 是 非 
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大 量 的 经 济 活动 都 依赖 于 信息 ， 我 们 不 能 在 海量 的 数据 中 迷失 ， 机 器 
学 习 将 有 助 于 我 们 穿越 数据 雾 需 ， 从 中 抽取 出 有 用 的 信息 。 在 开始 学 
Uae cedes SITE 
节 的 讨论 。 


1.2 关键 术语 


在 开始 研究 机 器 学 习 算法 之 前 ， 必 须 掌 握 一 些 基 本 的 术语 。 通 过 构建 
下 面 的 乌 类 分 类 系统 ， 我 们 将 接触 机 天 学 习 涉 及 的 音 用 术语 。 这 类 系 
统 非常 有 趣 ， 通 常 与 机 器 学 习 中 的 专家 系统 有 关 。 开 发 出 能 够 识别 乌 
类 的 计算 机 软件 ， 乌 类 学 者 束 可 以 退休 了 。 因 为 乌 类 学 首 十 研究 乌 类 
的 专家 ， 因 此 我 们 说 创建 的 是 一 个 专家 系统 。 


表 1-1 有 是 我 们 用 于 区 分 不 同 乌 类 需要 使 用 的 四 个 不 同 的 属性 值 ， 我 们 选 
用 体重 、 惨 展 、 有 无 脚 忠 以 及 后 痛 颜 色 作为 评测 基准 。 现 实 中 ， 你 可 
能 会 想 测 量 更 多 的 值 。 通 常 的 做 法 是 测量 所 有 可 测 属性 ， 而 后 再 挑 选 
出 重要 部 分 。 下面 测 量 的 这 四 种 值 称 之 为 特征 ， 也 可 以 称 作 属性 ， 但 
We 


表 1-1 基于 四 种 特征 的 乌 物 种 分 类 表 


体重 ( 克 ) AR (EX) W R 后 背 颜色 种 属 


1 1000.1 125.0 X 棕色 TEE 

2 3000.7 200.0 无 灰色 Be 

3 3300.0 220.3 Fe 灰色 Ej 

4 4100.0 136.0 有 黑色 普通 潜 乌 

5 3.0 11.0 X 绿色 瑰丽 蜂鸟 

6 570.0 75.0 无 黑色 BARRA 


表 1-1 的 前 两 种 特征 是 数值 型 ， 可 以 使 用 十 进 制 数字 ;第 三 种 特征 (是 
DAWK) 是 二 值 型 ， 只 可 以 取 0 或 1， 第 四 种 特征 EAE) 是 基 


FE re SUA ARABS AY DURUDOXEE 2586 HIER: o MRI IA 
A LC BEA VURAL, Ja B tn] De EE o 当然 在 七 
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用 例 ， 这 已 经 足够 了 。 


如 果 你 看 到 了 一 只 象牙 咏 咏 木马， 请 马上 通知 我 ! 而 且 千 万 不 要 告诉 
任何 人 。 在 我 到 达 之 前 ， 一 定 要 看 住 它 ， 别 让 它 飞 跑 了 。 (任何 发 现 
活 的 象牙 喉 咏 木 乌 的 人 都 可 以 得 到 5 万 美元 的 奖励 。) 


机 器 学 习 的 一 项 任务 就 是 分 类 。 本 节 我 们 讲述 如 何 使 用 表 1-1 进 行 分 
类 ， 标 识 出 象牙 喉 吸 木 乌 从 而 获取 5 万 美元 的 奖励 。 大 家 都 想 从 众多 其 
他 乌 类 中 分 辨 出 象牙 喉 吸 木 乌 ， 并 从 中 获 利 。 最 簿 单 的 做 法 是 安装 一 
个 喂食 硕 ， 然 后 雇佣 一 位 乌 类 学 者 ， 观 察 在 附近 进食 的 乌 类 。 如 采 人 发 
现象 牙 喉 咏 木 乌 ， 则 通知 我 们 。 这 种 方法 太 昂贵 了 ， 而 且 专 家 在 同一 
时 间 只 能 出 现在 一 个 地 方 。 我 们 可 以 自动 化 处 理 上 述 过 程 ， 安 装 多 个 
带 有 照相 机 的 喂食 右 ， 同 时 接 入 计算 机 用 于 标识 前 来 进食 的 乌 。 同 样 
我 们 可 以 在 喂食 着 中 放置 称 重 仪 郁 以 获取 乌 的 体重 ， 利 用 计算 机 视 委 
技术 来 提取 乌 的 姓 长 、 脚 的 类 型 和 后 背 色彩 。 假 定 我 们 可 以 得 到 所 需 
的 全 部 特征 信息 ， 那 该 如 何 判 断 飞 入 进食 器 的 乌 是 不 是 象牙 吹 吸 木 乌 
UE? 这 个 任务 就 是 分 类 ， 有 很 多 机 器 学 习 算 法 非常 善于 分 类 。 本 例 中 
的 类 别 就 是 乌 的 物种 ， 更 具体 地 说 ， 就 是 区 分 是 否 为 象牙 咏 吸 木 乌 。 


最 终 我 们 决定 使 用 某 个 机 器 学 习 算法 进行 分 类 ， 首 先 需 要 做 的 是 算法 
训练 ， 即 学 习 如 何 分 类 。 通 第 我 们 为 算法 输入 大 量 已 分 类 数据 作为 算 
法 的 训练 集 。 训 练 集 是 用 于 训练 机 器 学 习 算 法 的 数据 样本 集合 ， 表 1-1 
是 包含 六 个 训练 样本 的 训练 集 ， 每 个 训练 样本 有 4 种 特征 、 一 个 目标 变 
E. ， 如 图 1-2 所 示 。 目标 变量 是 机 器 学 习 算 法 的 预测 结果 ， 在 分 类 算法 
中 目标 变量 的 类 型 通 单 是 离散 型 的 ， 而 在 回归 算法 中 通 音 是 连续 型 
的 。 训 练 样本 集 必 须 确 定 知 道 目 标 变量 的 值 ， 以 便 机 大 学 习 算 法 可 以 
发 现 特征 和 目标 变量 之 间 的 关系 。 正 如 前 文 所 述 ， 这 里 的 目标 变量 是 
物种 ， 也 可 以 简化 为 标 称 型 的 数值 。 我 们 通 钊 将 分 类 问题 中 的 目标 变 
量 称 为 类 别 ， 并 假定 分 类 问题 只 存在 有 限 个 数 的 类 别 。 


Weight Wingspan Webbed feet? Back color Species 


1000.1 125.0 No Brown Buteo jamaicensis 
3000.7 200.0 No Gray Sagittarius serpentarius 
特征 B 标 变 it 


图 1-2 特征 和 标识 的 目标 变量 


注意 : 特征 或 者 属性 通常 是 训练 样本 集 的 列 ， 它 们 是 独立 测量 得 
到 的 结 末 ， 多 个 特征 联系 在 一 起 共同 组 成 一 个 训练 样本 。 


为 了 测试 机 器 学 习 算法 的 效果 ， 通 党 使 用 两 套 独立 的 样本 集 : 训练 数 
据 和 测试 数据 。 当 机 器 学 习 程序 开始 运行 时 ， 使 用 训练 样本 集 作 为 算 
法 的 输入 ， 训 练 完成 之 后 输入 测试 样本 。 输 入 测试 样本 时 并 不 提供 测 
试 样 本 的 目标 变量 ， 由 程序 决定 样本 属于 哪个 类 别 。 比 较 测 试 样本 预 
测 的 目标 变量 值 与 实际 样本 类 别 之 间 的 差别 ， 就 可 以 得 出 算法 的 实际 
精确 度 。 本 书 的 后 续 章 市 将 会 引入 更 好 地 使 用 测试 样本 和 训练 样本 信 
轧 的 方法 ， 这 里 珑 不 再 详 述 。 


假定 这 个 乌 类 分 类 程序 ， 经 过 测试 满足 精确 度 要 求 ， 有 是否 我 们 就 可 以 
看 到 机 器 已 经 学 会 了 如 何 区 分 不 同 的 乌 类 了 呢 ? 这 部 分 工作 称 之 为 知 
识 表示 ， 某 些 算 法 可 以 产生 很 容易 理解 的 知识 表示 ， 而 某 些 算法 的 知 
识 表 示 也 许 只 能 为 计算 机 所 理解 。 知识 表示 可 以 采用 规则 集 的 形式 ， 
也 可 以 采用 概率 分 布 的 形式 ， 甚 至 可 以 是 训练 样本 集中 的 一 个 实例 。 
在 某 些 场合 中 ， 人 们 可 能 并 不 想 建立 一 个 专家 系统 ， 而 仪 仅 对 机 器 学 
习 算 法 获取 的 信息 感 兴 趣 。 此 时 ， 采 用 何 种 方式 表示 知识 束 显 得 非 肖 
ED 

本 节 介 绍 了 机 器 学 习 领 域 涉及 的 关键 术语 ， 后 续 章 世 将 会 在 必要 时 引 
入 其 他 的 术语 ， 这 里 束 不 再 进一步 说 明 。 下 一 方 将 会 介绍 机 器 学 习 算 
法 的 主要 任务 。 


133 ”机 硕 学 习 的 主要 任务 


db 


本 市 主 要 介绍 机 器 学 习 的 主要 任务 ， 并 给 出 一 个 表格 ， 帮 助 读者 将 机 
器 学 习 算 法 转化 为 可 实际 运作 的 应 用 程序 。 


上 贡 的 例子 介绍 了 机 器 学 习 如 何 解 决 分 类 问题 ， 它 的 主要 任务 是 将 实 
例 数 据 划 分 到 合适 的 分 类 中 。 机 器 学 习 的 为 一 项 任务 是 回归 ， 它 主要 
用 于 预测 数值 型 数据 。 大 多 数 人 可 能 都 见 过 回归 的 例子 一 一 数据 拟 合 
曲线 : 通过 给 定数 据点 的 最 优 拟 合 曲线 。 分 类 和 回归 属于 监督 学 习 ， 
之 所 以 称 之 为 监督 学 习 ， 和 是 因为 这 类 算法 必须 知道 预测 什么 ， 即 目标 


变量 的 分 类 信息 。 


与 监督 学 习 相 对 应 的 是 非 监督 学 习 ， 此 时 数据 没有 类 别 信息 ， 也 不 会 
给 定 目标 值 。 在 非 监 督学 习 中 ， 将 数据 集合 分 成 由 类 似 的 对 象 组 成 的 
多 个 类 的 过 程 被 称 为 聚 类 ; 将 寻找 描述 数据 统计 值 的 过 程 称 之 为 密度 
估计 。 此 外 ， 非 监督 学 习 还 可 以 减少 数据 特征 的 维度 ， 以 便 我 们 可 以 
使 用 二 维 或 三 维 图 形 更 加 直观 地 展示 数据 信息 。 表 1-2 列 出 了 机 絮 学 习 
的 主要 任务 ， 以 及 解决 相应 问题 的 算法 。 


表 1-2 ”用 于 执行 分 类 、 回 归 、 聚 类 和 密度 估计 的 机 器 学 习 算法 


监督 学 习 的 用 途 


Je 近邻 算法 线性 回归 


朴素 贝 叶 斯 算法 局 部 加 权 线 性 回归 


支持 向 量 机 Ridge 回归 


决策 树 Lasso 最 小 回归 系数 估计 


无 监督 学 习 的 用 途 


K- 均 值 最 大 期 望 算 法 


DBSCAN Parzen 窗 设 计 


你 可 能 已 经 注意 到 表 1-2 中 的 很 多 算法 都 可 以 用 于 解决 同样 的 问题 ， 有 
心 人 肯定 会 问 :“ 为 什么 解决 同一 个 问题 存在 四 种 方法 ? 精通 其 中 一 种 
ere eA ee 
jal o 


1.4 ”如 何 选 择 合适 的 算法 


从 表 1-2 中 所 列 的 算法 中 选择 实际 可 用 的 算法 ， 必 须 考 虑 下 面 两 个 问 
Wi 一 、 使 用 机 器 学 习 算 法 的 目的 ， 想 要 算法 完成 何 种 任务 ， 比 如 ， 
征 预 测 明天 下 十 的 概率 还 是 对 投票 者 按照 兴趣 分 组 ， 二、 需要 分 析 或 
收集 的 数据 是 什么 。 


首先 考虑 使 用 机 器 学 习 算 法 的 目的 。 如 果 想 要 预测 目标 变量 的 值 ， 则 
可 以 选择 监督 学 习 算 法 ， 否 则 可 以 选择 非 监 督学 习 算 法 。 确 定 选 择 监 
督学 习 算法 之 后 ， 需 要 进一步 确定 目标 变量 类 型 ， 如 果 目 标 变量 是 离 
散 型 ， 如 是 / 否 、1/2/3、A/B/C 或 者 红 / 黄 / 黑 等 ， 则 可 以 选择 分 类 算法 ; 
如 果 目 标 变量 是 连续 型 的 数值 ， 如 0.0~100.00、-999~-999 或 者 +oo 一 -oo 
等 ， 则 需要 选择 回归 算法 。 


如 果 不 想 预测 目标 变量 的 值 ， 则 可 以 选择 非 监 督学 习 算 法 。 进 一 步 分 
析 是 否 需 要 将 数据 划分 为 离散 的 组 。 如 果 这 是 唯一 的 需求 ， 则 使 用 育 
Se ae sega ieee UITIUM 
度 依 计算 法 。 


在 大 多 数 情况 下 ， 上 面 给 出 的 选择 方法 都 能 帮助 读者 选择 恰当 的 机 天 
学 习 算 法 ， 但 这 也 并 非 一 成 不 变 。 第 9 章 我 们 就 会 使 用 分 类 算法 来 处 理 
回归 问题 ， 显 然 这 将 与 上 面 监督 学 习 中 处 理 回 归 问 题 的 原则 不 同 。 


其 次 需要 考虑 的 是 数据 问题 。 我 们 应 该 充分 了 解数 据 ， 对 实际 数据 了 
解 得 越 充 分 ， 越 容易 创建 符合 实际 需求 的 应 用 程序 。 主 要 应 该 了 解数 
据 的 以 下 等 性 : 特征 值 是 离 艇 型 变量 还 是 连续 型 变量 ， 竺 征 值 中 有 是否 
存在 缺失 的 值 ， 何 种 原因 造成 缺失 值 ， 数 据 中 是 否 存在 异 币值 ， 某 个 
特征 发 生 的 频率 如 何 〈 是 否 罕见 得 如 同 海底 捞 针 ) ， 等 等 。 充 分 了 解 
上 面 提 到 的 这 些 数据 特性 可 以 缩短 选择 机 器 学 习 算 法 的 时 间 。 


我 们 只 能 在 一 定 程度 上 缩小 算法 的 选择 范围 ， 一 般 并 不 存在 最 好 的 算 
法 或 者 可 以 给 出 最 好 结果 的 滤 法 ， 同 时 还 要 尝试 不 同 算法 的 执行 效 
东 。 对 于 所 选 的 每 种 算法 ， 都 可 以 使 用 其 他 的 机 融 学 习 扩 术 来 改进 其 
性 能 。 在 处 理 输入 数据 之 后 ， 两 个 算法 的 相对 性 能 也 可 能 会 发 生变 
化 。 后 续 章 节 我 们 将 进一步 讨论 此 类 问题 ， 一 般 说 来 发 现 最 好 算法 的 
关键 环 闻 是 反复 斌 错 的 迭代 过 程 。 


机 器 学 习 算 法 虽然 各 不 相同 ， 但 是 使 用 算法 创建 应 用 程序 的 步 又 却 基 
本 类 似 ， 下 一 节 将 介绍 如 何 使 用 机 右 学 习 算法 的 通用 步 又 。 


15 开发 机 器 学 习 应 用 程序 的 步骤 


本 书 学 习 和 使 用 机 器 学 习 算法 开发 应 用 程序 ， 通 党 遵循 以 下 的 步 又 。 


1. 收集 数据 。 我 们 可 以 使 用 很 多 方法 收集 样本 数据 ， 如 ， 制作 网 络 让 
虫 从 网 站 上 抽取 数据 、 从 RSS 反 馈 或 者 API 中 得 到 信息 、 设 备 发 送 过 来 
的 实测 数据 (风速 、 血 糖 等 ) 。 提 取 数 据 的 方法 非常 多 ， 为 了 节省 时 
间 与 精力 ， 可 以 使 用 公开 可 用 的 数据 源 。 


2. 准备 输入 数据 。 得 到 数据 之 后 ， 还 必须 确保 数据 格式 符合 要 求 ， 本 
书 采用 的 格式 是 Python 语言 的 List。 使 用 这 种 标准 数据 格式 可 以 融合 算 
法 和 数据 源 ， 方 便 匹 配 操 作 。 本 书 使 用 Python 语 言 构造 算法 应 用 ， 不 熟 
悉 的 读者 可 以 学 习 附 永 A。 


此 外 还 需要 为 机 器 学 习 算 法 准备 特定 的 数据 格式 ， 如 某 些 算法 要 求 特 
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个 问题 ， 但 是 与 收集 数据 的 格式 相 比 ， 处 理 特 殊 算 法 要 求 的 格式 相对 


简单 得 多 。 


3. 分 析 输 入 数据 。 此 步骤 主要 是 人 工分 析 以 前 得 到 的 数据 。 为 了 确保 
前 两 步 有 效 ， 节 人 稍 单 的 方法 息 用 文本 编辑 天 打 开 数 据 文 件 ， 查 看 得 到 
的 数据 是 否 为 空 值 。 此 外 ， 还 可 以 进一步 浏 哎 数 据 ， 分 析 是 否 可 以 识 
别 出 模式 ;数据 中 是 否 存在 明显 的 异常 值 ， 如 某 些 数据 点 与 数据 集中 
的 其 他 值 存 在 明显 的 差异 。 通 过 一 维 、 二 维 或 三 维 图 形 展示 数据 也 是 
不 错 的 方法 ， 然 而 大 多 数 时 候 我 们 得 到 数据 的 特征 值 都 不 会 低 于 三 
个 ， 无 法 一 次 图 形 化 展示 所 有 特征 。 本 书 的 后 续 章 方 将 会 介绍 提炼 数 
人 
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这 一 步 的 主要 作用 是 确保 数据 集中 没有 垃圾 数据 。 如 于 是 在 产品 化 系 
统 中 使 用 机 万 学 习 算法 并 且 算 法 可 以 处 理 系统 产生 的 数据 格式 ， 或 者 
我 们 信任 数据 来 源 ， 可 以 直接 跳 过 第 3 步 。 此 步骤 需要 人 工 干 预 ， 如 果 
在 自动 化 系统 中 还 需要 人 工 干预 ,显然 束 降低 了 系统 的 价值 。 


4. 训练 算法 。 机 器 学 习 算法 从 这 一 步 才 真正 开始 学 习 。 根 据 算法 的 不 
同 ， 第 4 步 和 第 5 步 是 机 恬 学 习 算法 的 核心 。 我 们 将 前 两 步 得 到 的 格式 


化 数据 输入 到 算法 ， 从 中 抽取 知识 或 信息 。 这 里 得 到 的 知识 需要 存储 
为 计算 机 可 以 处 理 的 格式 ， 方 便 后 续 步 又 使 用 。 


如 采 使 用 非 监督 学 习 算法 ， 由 于 不 存在 目标 变量 值 ， 故 而 也 不 需要 训 
练 算法 ， 所 有 与 算法 相关 的 内 容 痢 集中 在 第 5 步 。 


5. 测试 算法 。 这 一 步 将 实际 使 用 第 4 步 机 器 学 习 得 到 的 知识 信息 。 为 了 
评 佑 算法， 必须 测 试 算法 工作 的 效 末 。 对 于 监督 学 习 ， 必 须 已 知 用 于 
评估 算法 的 目标 变量 值 ， 对 于 非 监督 学 习 ， 也 必须 用 其 他 的 评测 手段 
来 检验 算法 的 成 功率 。 无 论 哪 种 情形 ， 如 有 果 不 满 意 算法 的 输出 结果 ， 

则 可 以 回 到 第 4 步 ， 改 正 并 加 以 测试 。 问 题 第 第 会 跟 数 据 的 收集 和 准备 
有 关 ， 这 时 你 就 必须 跳 回 第 1 步 重 新 开始 。 


6. 使 用 算法 。 将 机 器 学 习 算法 转换 为 应 用 程序 ， 执 行 实际 任务 ， 以 检 
验 上 述 步 又 是 否 可 以 在 实际 环境 中 正常 工作 。 此 时 如 末 人 页 到 新 的 数据 
问题 ， 同 样 需要 重复 执行 上 述 的 步骤 。 


下 元 我 们 将 讨论 实现 机 硕 学 习 算 法 的 编程 语言 Python。 之 所 以 选择 
Python， 征 因为 它 上 只 有 其 他 编程 语言 不 具备 的 优势 ， 如 易于 理解 、 丰 
的 函数 库 〈 尤 其 是 矩阵 操作 ) 、 活 跃 的 开发 者 社区 等 。 


1.6 ”Python 语言 的 优势 


基于 以 下 三 个 原因 ， 我 们 选择 Python 作为 实现 机 器 学 习 算 法 的 编程 语 
A: (1) Python 的 语法 清晰 ; (2) 易于 操作 纯 文本 文件 ，(3) 使 用 广泛 ， 
存在 大 量 的 开发 文档 。 


1.6.1 可 执行 伪 代 码 


Python 具有 清晰 的 语法 结构 ， 大 家 也 把 它 称 作 可 执行 伪 代 码 

(executable pseudo-code) 。 默 认 安 装 的 Python 开发 环境 已 经 附带 了 很 
多 高 级 数据 类 型 ， 如 列表 、 元 组 、 字 典 、 集 合 、 队 列 等 ， 无 需 进 一 步 
编程 丈 可 以 使 用 这 些 数 据 类 型 的 操作 。 使 用 这 些 数据 类 型 使 得 实现 抽 
象 的 数学 概念 非常 简单 。 此 外 ， 读 者 还 可 以 使 用 自己 熟悉 的 编程 风 
格 ， 如 面向 对 象 编程 、 面 向 过 程 编程 、 或 者 函数 式 编程 。 不 熟悉 Python 
的 读者 可 以 参阅 附录 A， 该 附录 详细 介绍 了 Python 语言 、 Python 使 用 的 
数据 类 型 以 及 安装 指南 。 


Python 语言 处 理 和 操作 文本 文件 非常 商 单 ， 非 党 易于 处 理 非 效 值 型 数 
据 。Python 语 言 提供 了 丰富 的 正则 表达 式 范 数 以 及 很 多 访问 Web 页 面 的 
畏 数 库 ， 使 得 从 HTML 中 提取 数据 变 得 非 闻 位 单 直观 。 


1.6.2 Python 比较 流行 


Python 语 言 使 用 广 沁 ， 代 码 范 例 也 很 多 ， 便 于 读者 快速 学 习 和 掌握 。 此 
在 开发 实际 应 用 程序 时 ， 也 可 以 利用 丰富 的 模块 库 缩短 开发 周 


在 科学 和 人 金融 领域 ,， Python 语言 得 到 了 广泛 应 用 。SciPy 和 NumpPy 等 许 
多 科学 玉 数 库 都 实现 了 癌 量 和 矩阵 操作 ， 这 些 函 数 库 增加 了 代码 的 可 
读 性 ， 学 过 线性 代数 的 人 都 可 以 看 慌 代 码 的 实际 功能 。 男 外 ， 科 学 函 
数 库 SciPy 和 NumPy 使 用 底层 语言 (C 和 Fortran) 编写 ， 提 高 了 相关 应 
用 程序 的 计算 性 能 。 本 书 将 大 量 使 用 Python 的 NumPy。 


Python 的 科学 工具 可 以 与 绘图 工具 Matplotlib 协 同 工 作 。Matplotlib 可 以 
绘制 2D、3D 图 形 ， 也 可 以 处 理科 学 研究 中 经 党 使 用 到 的 图 形 ， 所 以 本 
书 也 将 大 量 使 用 Matplotlib 。 


Python 开 发 环境 还 提供 了 交互 式 shell 环 境 ， 人 允许 用 户 开发 程序 时 查看 和 
仿 测 程序 内 容 。 


Python 开发 环境 将 来 还 会 集成 Pylab 模 块 ， 它 将 NumPy、SciPy 和 
Matplotlib 合 并 为 一 个 开发 环境 。 在 本 书写 作 时 ，Pylab 还 没有 并 入 
Python 环 境 ， 但 是 不 远 的 将 来 我 们 肯定 可 以 在 Python 开 发 环境 找到 它 。 


1.6.3 Python 语言 的 特色 


诸如 MATLAB 和 Mathematica 等 高 级 程序 语言 也 人 允许 用 户 执行 矩阵 操 
作 ，MATLAB 其 至 还 有 许多 内 髓 的 特征 可 以 轻松 地 构造 机 器 学 习 应 
用 ， 而 且 MATLAB 的 运算 速度 也 很 快 。 然 而 MATLAB 的 不 足 之 处 是 软 
件 费 用 太 高 ， 单 个 软件 授权 就 要 花费 数 千 美元 。 虽 然 也 有 适合 
MATLAB 的 第 三 方 插件 ， 但 是 没有 一 个 有 影响 力 的 大 型 开源 项 目 。 


Java 和 C 等 强 类 型 程序 设计 语言 也 有 和 矩阵 数学 库 ， 然 而 对 于 这 些 程序 设 
计 语言 来 说 ， 最 大 的 问题 生 即 使 完成 商 单 的 操作 也 要 编写 大 量 的 代 
码 。 程 序 员 首先 需要 定义 变量 的 类 型 ， 对 于 Java 来 说 ， 每 次 封装 属性 时 


还 需要 实现 getter 和 setter 方 法 。 另 外 还 要 记 着 实现 子 类 ， 即 使 并 不 想 使 
用 子 类 ， 也 必须 实现 子 类 方法 。 为 了 完成 一 个 简单 的 工作 ， 我 们 必须 
花费 大 量 时 间 编 写 了 很 多 无 用 见长 的 代码 。Python 语 言 则 与 Java 和 C 完 
全 不 同 ， 它 清晰 人 简练， 而 且 易 于 理解 ， 即 使 不 是 编程 人 员 也 能 够 理解 
程序 的 含义 ， 而 Java 和 C 对 于 非 编 程 人 员 则 像 天 书 一 样 难于 理解 。 


所 有 人 在 小 学 二 年 级 已 经 学 会 了 写作 ， 然 而 大 多 数 人 必须 从 事 其 他 更 
重要 的 工作 。 


e 
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些 人 对 于 编写 代码 很 感 兴趣 ， 但 是 对 于 大 多 数 人 来 说 ， 编 程 仅 是 完成 
其 他 任务 的 工具 而 已 。Python 语 言 是 高 级 编程 语言 ， 我 们 可 以 花费 更 多 
的 时 间 处 理 数据 的 内 在 舍 义 ， 而 无 须 伦 费 太 多 精力 解决 计算 机 如 何 得 
到 数据 结果 。Python 语 言 使 得 我 们 很 容易 表达 目 己 的 目的 。 


1.6.4 Python 语言 的 缺点 


Python 语言 唯一 的 不 足 是 性 能 问题 。Python 程 序 运 行 的 效率 不 如 Java 或 
者 C 代 码 高 ， 但 是 我 们 可 以 使 用 Python 调用 C 编 译 的 代码 。 这 样 ， 我 们 
就 可 以 同时 利用 C 和 和 Python 的 优点 ， 逐 步 地 开发 机 器 学 习 应 用 程序 。 我 
们 可 以 首先 使 用 Python 编 写实 验 程序 ， 如 果 进 一 步 想 要 在 产品 中 实现 机 
器 学 习 ， 转 换 成 C 代 人 码 也 不 困难 。 如 果 程 序 是 按照 模块 化 原则 组 织 的 ， 
我 们 可 以 先 构 造 可 运行 的 Python 程 序 ， 然 后 再 逐步 使 用 C 代 码 蔡 换 核 心 
代码 以 改进 程序 的 性 能 。C++ Boost 库 就 适合 完成 这 个 任务 ， 其 他 类 似 
于 Cython 和 PyPy 的 工具 也 可 以 编写 强 类 型 的 Python 代码 ， 改 进 一 般 
Python 程序 的 性 能 。 


如 采 程 序 的 算法 或 者 思想 有 人 缺陷 ， 则 无 论 程序 的 性 能 如 何 ， 都 无 法 得 
到 正确 的 结果 。 如 果 解 决 问题 的 思想 存在 问题 ， 那 么 单纯 通过 提高 程 
序 的 运行 效率 ， 扩 展 用 户 规模 都 无 法 解决 这 个 核心 问题 。 从 这 个 角度 
来 看 ，Python 快 速 实现 系统 的 优势 束 更 加 明显 了 ， 我 们 可 以 快速 地 检验 
算法 或 者 思想 是 否 正 确 ， 如 有 果 需 要 ， 再 进一步 优化 代码 。 


本 下 大 致 介绍 了 本 书 选择 Python 语言 实现 机 天 学 习 算 法 的 原因 ， 下 了 我 
们 将 学 习 Python 语 言 的 shell 开 发 环境 以 及 NumPy 函 数 库 。 
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机 器 学 习 应 用 时 ， 会 经 常 使 用 NumPy 函 数 库 。 如 果 不 熟悉 线性 代数 也 
不 用 着 急 ， 这 里 用 到 线性 代数 只 是 为 了 简化 不 同 的 数据 点 上 执行 的 相 
同 数学 运算 。 将 数据 表示 为 矩阵 形式 ， 只 需要 执行 简单 的 矩阵 运算 而 
不 需要 复杂 的 循环 操作 。 在 你 使 用 本 书 开始 学 习 机 器 学 习 算法 之 前 ， 
必须 确保 可 以 正确 运行 Python 开 发 环境 ， 同 时 正确 安装 了 NumPy 范 数 
库 。NumPy 函 数 库 是 Python 开 发 环境 的 一 个 独立 模块 ， 而 且 大 多 数 
Python 发 行 版 没有 默认 安装 NumPy 函 数 库 ， 因 此 在 安装 Python 之 后 必须 
单独 安装 NumPy 范 数 库 。 在 Windows 命 令 行 提示 和 从 下 输入 
c:\Python27\python.exe ， 在 Linux 或 者 Mac OS 的 终端 上 输入 python , 
进入 Python shell 开 发 环境 。 今 后 ， 一 旦 看 到 下 述 提示 符 就 意味 着 我 们 
已 经 进入 Python shell 开 发 环境 : 


>>> 


在 Python shell 开 发 环境 中 输入 下 列 命 令 : 


>>> from numpy import * 


上 述 命 令 将 NumPy 函 数 库 中 的 所 有 模块 引入 当前 的 命名 空间 。Mac OS 
上 输出 结 采 如 图 1-3 所 示 。 


Terminal 一 Python 79x19 
Last login: Mon Nov 22 08:35:55 on ttyso00 B 
peter-harringtons-imoc:^ pbhorrin$ python 
Python 2.6.1 (r261:67515, Feb 11 2010, 00:51:29) 
(GCC 4.2.1 (Apple Inc. build 5646)] on darwin 
Type "help", "copyright", "credits" or "license" for more information. 
>>> from numpy import * 
>>> 


图 1-3 ”命令 行 局 动 Python 并 在 Python shell 开 发 环境 中 导入 模块 
然后 在 Python shell 开 发 环境 中 输入 下 述 命令 : 


>>> random.rand(4, 4) 


array([[ 0.70328595, 0.40951383, 0.7475052 , 0.07061094], 
[ 0.9571294 , 0.97588446, 0.2728084 , 0.5257719 ], 
[ 0.05431627, 0.01396732, 0.60304292, 0.19362288], 
[ 0.10648952, 0.27317698, 0.45582919, 0.04881605]]) 


上 述 命令 构造 了 一 个 4x4 的 随机 数组 ， 因 为 产生 的 是 随机 数组 ， 不 同 计 
算 机 的 输出 结 采 可 能 与 上 述 结 来 完全 不 同 。 


NumPy 甜 阵 与 数组 的 区 别 


NumPy 函 数 库 中 存在 两 种 不 同 的 数据 类 型 (矩阵 matrix 和 数组 

array) ， 都 可 以 用 于 处 理 行列 表示 的 数字 元 素 。 虽 然 它们 看 起 来 
很 相似 ， 但 是 在 这 两 个 数据 类 型 上 执行 相同 的 数学 运算 可 能 得 到 
ANA, FL ANumPy eae F matris MATLAB matrices 


等 价 。 


调用 mat () 函数 可 以 将 数组 转化 为 矩阵 ， 输 入 下 述 命令 : 


>>> randMat = mat(random.rand(4,4)) 


由 于 使 用 随机 画 数 产生 矩阵， 不 同 计算 机 上 输出 的 值 可 能 略 有 不 同 : 
>>> randMat.I 
matrix([[ 0.24497106, 1.75854497, -1.77728665, -0.0834912 ], 
[ 1.49792202, 2.12925479, 1.32132491, -9.75890849], 


[ 2.76042144, 1.67271779, -0.29226613, -8.45413693], 


[-2.03011142, -3.07832136, 1.4420448 , 9.62598044]]) 


I PRVEAT SCD T ERERKEN SA SEAT ARNEL? 没有 NumPy 库 ， 
Python 也 不 能 这 么 容易 算出 来 答 阵 的 逆 运 算 。 不 记得 或 者 没 学 过 给 阵 求 
遂 也 没关系 ，NumpPy 库 帮 我 们 做 完了 ， 执 行 下 面 的 命令 存储 逆 和 矩阵 : 


>>> invRandMat = randMat.I 


接着 执行 矩阵 乘法 ， 得 到 矩阵 与 其 逆 和 矩阵 相 乘 的 结果 : 


>>> randMat*invRandMat 


matrix([[ 1.00000000e+00, 0.00000000e+00, 2.22044605e-16, 1.77635684e-15], 


[ 0.00000000e-00, 1.00000000e+00, 0.00000000e-700, 0.00000000e+00 
1, 

[ ©.00000000e+00, 4.44089210e-16, 1.00000000e+00, -8.88178420e- 
16], 

[ -2.22044605e-16, 0.00000000e+00, 1.11022302e- 


16,  1.00000000e+00]]) 
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这 是 计算 机 处 理 误差 产生 的 结 有 末 。 输 入 下 述 命 令 ， 得 到 误差 值 : 


>>> myEye = randMat*invRandMat 


>>> myEye - eye(4) 


matrix([[ 0.00000000e+00, -6.59194921e-17, -4.85722573e-17, -4.99600361e-16], 


[ 2.22044605e-16, 0.00000000e-00, -6.03683770e-16, -7.77156117e-16], 


[ -5.55111512e-17, -1.04083409e-17, -3.33066907e-16, -2.22044605e-16], 


[ 5.55111512e-17, 1.56125113e-17, -5.55111512e- 
17, ©.00000000e+00]]) 


函数 eye(4) 创建 4x4 的 单位 矩阵 。 


只 要 能 够 顺利 地 完成 上 述 例子 ， 就 说 明 已 经 正确 地 安装 了 Numpy 画 数 
库 ， 以 后 我 们 就 可 以 利用 它 构造 机 器 学 习 应 用 程序 。 即 使 没有 提前 学 
习 所 有 的 而 数 也 没有 关系 ， 本 书 罗 在 需要 的 时 候 介绍 更 多 的 Numby 可 
数 库 的 功能 。 


1.8 本章 小 结 


尽管 没有 引起 大 多 数 人 的 注意 ， 但 是 机 恬 学 习 算 法 已 经 广泛 应 用 于 我 
们 的 日 常生 活 之 中 。 每 天 我 们 需要 处 理 的 数据 在 不 断 地 增加 ， 能 够 深 
入 理解 数据 有 后 的 真实 仿 义 ， 是 数据 驱动 产业 必须 具备 的 基本 技能 。 


学 习 机 如 学习 算法 ， 必 须 了 解数 据 实例 ， 每 个 数据 实例 由 多 个 特征 值 
组 成 。 分 类 是 基本 的 机 器 学 习 任 务 ， 它 分 析 示 分 类 数据 ， 以 确定 如 何 
将 其 放 入 已 知 群 组 中 。 为 了 构建 和 训练 分 类 器 ， 必 须 首 先 输入 大 量 已 
知 分 类 的 数据 ， 我 们 将 这 些 数据 称 为 训练 样本 集 。 


尽管 我 们 构造 的 乌 类 识别 专家 系统 无 法 像 人 类 专家 一 样 精确 地 识别 不 
同 的 乌 类 ， 然 而 构建 接近 专家 水 平 的 机 器 系统 可 以 显著 地 改进 我 们 的 
生活 质量 。 如 果 我 们 可 以 构造 的 医生 专家 系统 能 够 达到 人 类 医生 的 准 
确 率 ， 则 病人 可 以 得 到 快速 的 治疗 ， 如 果 我 们 可 以 改进 天 气 预 报 ， 则 
可 以 减少 水 资源 的 短缺 ， 提 高 食物 供给 。 我 们 可 以 列举 许 许多 多 这 样 
的 例子 ， 机 器 学 习 的 应 用 前 景 几乎 是 无 限 的 。 


第 一 部 分 的 后 续 6 章 主要 研究 分 类 问题 ， 它 是 监督 学 习 算 法 的 一 个 分 
支 ， 下 一 章 我 们 将 介绍 第 一 个 分 类 算法 一 k -近邻 算法 。 


第 2 章 k- 近 邻 算法 
本 章 内容 


。 上 近邻 分 类 算法 

。 从 文本 文件 中 解析 和 导入 数据 
。 使 用 Matplotlib 创 建 扩 散 图 

。 归 一 化 数值 


众所周知 ， 电 影 可 以 按照 题材 分 类 ， 然 而 题材 本 映 古 如 何 定 义 的 ?由 谁 
来 判定 某 部 电影 属于 哪个 题材 ?也 就 是 说 同一 题材 的 电影 具有 了 哪些 公共 
等 征 ?这 些 都 是 在 进行 电影 分 类 时 必须 要 考虑 的 问题 。 没 有 哪个 电影 

会 说 目 己 制 作 的 电影 和 以 前 的 某 部 电影 类 似 ， 但 我 们 确实 知道 每 部 电 

影 在 风格 上 的 确 有 可 能 会 和 同 题材 的 电影 相近 。 那 么 动作 片 具有 哪些 

共有 特征 ， 使 得 动作 片 之 间 非 常 类 似 ， 而 与 爱情 片 存 在 着 明 显 的 差别 

We? 动作 片 中 也 会 存在 接吻 人 镜头， 爱情 族 中 也 会 存在 打斗 场景 ， 我 们 

不 能 单纯 依靠 是 否 存 在 打斗 或 者 亲吻 来 判断 影片 的 类 型 。 但 十 爱情 厂 

中 的 杀 吻 镜头 更 多 ， 动 作 片 中 的 打斗 场景 也 更 频 索 ， 基 于 此 类 场景 在 

某 部 电影 中 出 现 的 次 数 可 以 用 来 进行 电影 分 类 。 本 章 第 一 下 基于 电影 

中 出 现 的 亲吻 、 打 斗 出 现 的 次 数 ， 使 用 k 近 邻 算 法 构造 程序 ， 上 自动 划分 
电影 的 题材 类 型 。 我 们 首先 使 用 电影 分 类 讲解 k 近 邻 算法 的 基本 概念 ， 

然后 学 习 如 何在 其 他 系统 上 使 用 k 近 邻 算法 。 

本 章 介绍 第 一 个 机 器 学 习 算 法 : k 近 邻 算 法 ， 它 非常 有 效 而 且 易 于 掌 

握 。 甫 和 完 ， 我 们 将 探讨 k 近 邻 算 法 的 基本 理论 ， 以 及 如 何 使 用 距离 测量 
的 方法 分 类 物品 ， 接 着 ， 我 们 将 使 用 Python 从 文本 文件 中 导入 并 解析 数 
fe; 然后， 本 书 讨论 了 当 存 在 许多 数据 来 源 时 ， 如 何 避 人 免 计 算 距 离 时 

HAERESI 255 ALERTA; 最 后 ， 利 用 实际 的 例子 讲解 如 何 使 用 k 近 分 
算法 改进 约会 网 站 和 手写 数字 识别 系统 。 


2.1 k- 近 邻 算 法 概述 
简单 地 说 ，k 近 邻 算 法 采用 测量 不 同 特征 值 之 间 的 距离 方法 进行 分 类 。 
k- 近 邻 算法 


优点 : 精度 高 、 对 异常 值 不 敏感 、 无 数据 输入 假定 。 


缺点 : 计算 复杂 度 高 、 空 间 复 杂 度 高 。 适用 数据 范围 : 数值 型 和 
标 称 型 。 


本 书 讲解 的 第 一 个 机 器 学 习 算 法 是 k- 近 邻 算法 (kNN)， 它 的 工作 原理 
Æ: 存在 一 个 样本 数据 集合 ， 也 称 作 训练 样本 集 ， 并 且 样 本 集中 每 个 
数据 都 存在 标签 ， 即 我 们 知道 样本 集中 每 一 数据 与 所 属 分 类 的 对 应 天 
系 。 输 入 没有 标签 的 新 数据 后 ， 将 新 数据 的 每 个 特征 与 样本 集中 数据 
对 应 的 特征 进行 比较 ， 然 后 算法 提取 样本 集中 特征 最 相似 数据 (最 近 
邻 ) 的 分 类 标签 。 一 般 来 说 ， 我 们 只 选择 样本 数据 集中 前 k 个 最 相似 的 
数据 ， 这 就 古 k- 近 令 算 法 中 k AME, TAK TUA 20H 2 o Be 

后 ， 选 择 k 个 最 相似 数据 中 出 现 次 数 最 多 的 分 类 ， 作 为 新 数据 的 分 类 。 


现在 我 们 回 到 前 面 电影 分 类 的 例子 ， 使 用 k 近 令 算 法 分 类 爱情 片 和 动作 
片 。 有 人 曾经 统计 过 很 多 电影 的 打斗 镜头 和 接吻 镜头 ， 图 2-1 显 示 了 6 部 
电影 的 打斗 和 接吻 镜头 数 。 假 如 有 一 部 未 看 过 的 电影 ， 如 何 确定 它 是 
爱情 片 还 是 动作 片 呢 ? 我 们 可 以 使 用 kNN 来 解决 这 个 问题 。 


California Man 
He's Not Really into Dudes 


FEA RE 


? 
现 
的 Beautiful Woman 


E: 
吻 


+ 


Kevin Longblade 


PE RE 
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Robo Slayer 3000 


EET 


Amped II 


电影 中 出 现 的 打斗 镜头 次 数 


图 2-1 使 用 打斗 和 接吻 镜头 数 分 类 电影 
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1 中 问号 位 置 是 该 未 知 电 影 出 现 的 镜头 数 图 形 化 展示 ， 有 具体 数字 参见 表 
2-1° 


表 2-1 每 部 电影 的 打斗 镜头 数 、 接 吻 镜 头 数 以 及 电影 评估 类 型 


电影 名 称 打斗 镜头 ”接吻 镜头 ”电影 类 型 
California Man 3 104 爱情 片 
He's Not Really into Dudes 2 100 爱情 片 
Beautiful Woman 1 81 爱情 片 
Kevin Longblade 101 10 动作 片 
Robo Slayer 3000 99 5 动作 片 
Amped ll 98 2 动作 片 


即使 不 知道 未 知 电影 属于 哪 种 类 型 ， 我 们 也 可 以 通过 某 种 方法 计算 出 
来 。 首 先 计算 未 知 电 影 与 样本 集中 其 他 电影 的 距离 ， 如 表 2-2 所 示 。 此 
处 暂时 不 要 关心 如 何 计 算得 到 这 些 距离 值 ， 使 用 Python 实 现 电影 分 类 应 
用 时 ， 会 提供 具体 的 计算 方法 。 


表 2-2 已 知 电 影 与 未 知 电影 的 距离 


电影 名 称 与 未 知 电 影 的 距离 
California Man 20.5 
He's Not Really into Dudes 18.7 
Beautiful Woman 19.2 
Kevin Longblade 115.3 
Robo Slayer 3000 117.4 


Amped Il 118.9 


现在 我 们 得 到 了 样本 集中 所 有 电影 与 未 知 电影 的 距离 ， 按 照 距 离 递 增 
排序 ， 可 以 找到 k 个 距离 最 近 的 电影 。 假 定 k =3， 则 三 个 最 靠近 的 电影 
依次 是 Hes Not Really into Dudes ^ Beautiful Woman 和 California Man ° 
k 近 邻 算 法 按照 距离 最 近 的 三 部 电影 的 类 型 ， 决 定 未 知 电影 的 类 型 ， 而 
这 三 部 电影 全 是 爱情 厂 ， 因 此 我 们 判定 未 知 电影 是 爱情 片 。 


本 章 主要 讲解 如 何在 实际 环境 中 应 用 k 近 邻 算 法 ， 同 时 涉及 如 何 使 用 
Python 工 具 和 相关 的 机 侨 学 习 术 语 。 按 照 1.5 太 开发 机 右 学 习 应 用 的 通 
用 步骤 ， 我 们 使 用 Python 语言 开发 kx 近邻 算 法 的 简单 应 用 ， 以 检验 算法 
使 用 的 正确 性 。 


k 近 邻 算法 的 一 般 流程 


1. 收集 数据 : 可 以 使 用 任何 方法 。 

2. 准备 数据 : 距离 计算 所 需要 的 数值 ， 最 好 是 结构 化 的 数据 格式 。 

3. 分 析 数 据 : 可 以 使 用 任何 方法 。 

4. 训练 算法 : 此 步 又 不 适用 于 k 近 分 算法 。 

5. 测试 算法 : 计算 错误 率 。 

c. 使 用 算法 : 首先 需要 输入 样本 数据 和 结构 化 的 输出 结果 ， 然 后 运 
行 k 近 邻 算 法 判定 输入 数据 分 别 属于 哪个 分 类 ， 最 后 应 用 对 计算 出 
的 分 类 执行 后 续 的 处 理 。 


2.1.1 准备 : 使 用 python 导 入 数据 


首先 ， 创 建 名 为 KNN.py 的 Python 模块 ， 本 章 使 用 的 所 有 代码 都 在 这 个 
文件 中 。 读 者 可 以 按照 自己 的 习惯 学 习 代 码 ， 既 可 以 按照 本 书 学 习 的 
进度 ， 在 自己 创建 的 Python 文件 中 编写 代码 ， 也 可 以 直接 从 本 书 的 源 代 
口中 复制 QNNPy 文 件 ”我 推 着 记者 从 头 开始 创建 模块， 护照 学 习 的 进 
度 编写 代码 。 


无 论 大 家 采用 何 种 方法 ， 我 们 现在 已 经 有 了 kNN.py 文 件 。 在 构造 完整 
的 k 近 邻 算 法 之 前 ， 我 们 还 需要 编写 一 些 基本 的 通用 函数 ， 在 kKNN.py 文 
件 中 增加 下 面 的 代码 : 


from numpy import * 


import operator 


def createDataSet(): 


group = array([[1.0,1.1],[1.9,1.0], [6,0], [0,0.1]]) 


labels = ['A','A', 'B', 'B'] 


return group, labels 


在 上 面 的 代码 中 ， 我 们 导入 了 两 个 模块 : 第 一 个 是 科学 计算 包 
NumPy; 第 二 个 是 运算 符 模 块 ，k 近 邻 算法 执行 排序 操作 时 将 使 用 这 个 
模块 提供 的 钞 数 ， 后 面 我 们 将 进一步 介绍 。 


为 了 方便 使 用 createpataset() 函数 ， 它 创建 数据 集 和 标签 ， 如 图 2-1 所 
示 。 然 后 依次 执行 以 下 步骤 : 保存 kNN.py 文 件 ， 改 变 当 前 路 径 到 存储 
kNN.py 文 件 的 位 置 ， 打 开 Python 开 发 环境 。 无 论 是 Linux、Mac OS 还 是 
Windows 都 需要 打开 终端 ， 在 命令 提示 符 下 完成 上 述 操作 。 只 要 我 们 按 
照 默 认 配 置 安 装 Python， 在 Linux/Mac OS 终 端 内 都 可 以 直接 输入 python 
， 而 在 Windows 命 令 提 示 符 下 需要 输入 c:\Python2.6\python.exe j yt 
入 Python 交互 式 开发 环境 。 


进入 Python 开发 环境 之 后 ， 输 入 下 列 命令 导入 上 面 编辑 的 程序 模块 : 


>>> import kNN 


上 述 命 令 导 入 kKNN 模 块 。 为 了 确保 输入 相同 的 数据 集 ，kNN 模 块 中 定 
SCT ÉRZXcreateDataset ， 在 Python 命令 提示 符 下 输入 下 属 命令 : 


>>> group,labels = kNN.createDataSet() 


上 述 命 令 创 建 了 变量 group 和 labels ， 在 Python 命令 提示 符 下 输入 下 列 
命令 ， 输 入 变量 的 名 字 以 检验 是 否 正 确 地 定义 变量 : 


>>> group 


array([[ 1. , 1.1], 


[ 0. , 0.1]]) 


>>> labels 


这 里 有 4 组 数据 ， 每 组 数据 有 两 个 我 们 已 知 的 属性 或 者 特征 值 。 上 面 的 
group 矩阵 每 行 包含 一 个 不 同 的 数据 ， 我 们 可 以 把 它 想象 为 某 个 日 志文 
件 中 不 同 的 测量 点 或 者 入 口 。 由 于 人 类 大 脑 的 限制 ， 我 们 通常 只 能 可 
钢化 处 理 三 维 以 下 的 事务 。 因 此 为 了 人 简单 地 实现 数据 可 视 化 ， 对 于 每 
个 数据 点 我 们 通常 只 使 用 两 个 特征 。 


回 量 labels 包含 了 每 个 数据 点 的 标签 信息 ，1labels 包含 的 元 素 个 数 等 
于 group 窍 阵 行 数 。 这 里 我 们 将 数据 点 (1 1.1) 定 义 为 类 A， 数 据点 (0， 
0.1) 定 义 为 类 B。 为 了 说 明 方便 ， 例 子 中 的 数值 是 任意 选择 的 ， 并 没有 
给 出 轴 标 签 ， 图 2-2 是 带 有 类 标签 信息 的 四 个 数据 点 。 


=0.2 0.0 0.2 0.4 0.6 0.8 1.0 1.2 


图 2-2 KERRE: 带 有 4 个 数据 点 的 简单 例子 


现在 我 们 已 经 知道 Python 如 何 解析 数据 ， 如 何 加 载 数 据 ， 以 及 kNN 算 法 
的 工作 原理 ， 接 下 来 我 们 将 使 用 这 些 方 法 完成 分 类 任务 。 


2.1.2 ”实施 KNN 分 类 算法 


本 节 使 用 程序 清单 2-1 的 函数 运行 KHNN 算 法 ， 为 每 组 数据 分 类 。 这 里 首 
先 给 出 k 近 邻 算 法 的 伪 代 码 和 实际 的 Python 代码 ， 然 后 详细 地 解释 每 行 
代码 的 含义 。 该 贸 数 的 功能 是 使 用 k 近 邻 算法 将 每 组 数据 划分 到 某 个 类 
P, ROB T: 


对 未 知 类 别 属性 的 数据 集中 的 每 个 点 依次 执行 以 下 操作 : 


1. 计算 已 知 类 别 数据 集中 的 点 与 当前 点 之 间 的 距离 ; 


4. 确定 前 k 个 点 所 在 类 别 的 出 现 频率 ; 


ak 


5. 返回 前 k 个 点 出 现 频率 最 高 的 类 别 作 为 当前 点 的 预测 分 


Python 芳 数 classify0() 如 程序 清单 2-1 所 示 。 
程序 清单 2-1 k 近 邻 算法 


def classifyO(inX, dataSet, labels, k): 


dataSetSize = dataSet.shape[0] 


#0 (以 下 三 行 ) 距离 计算 


diffMat = tile(inX, (dataSetSize,1)) - dataSet 


sqDiffMat - diffMat**2 


sqDistances = sqDiffMat.sum(axis=1) 


distances = sqDistances**0.5 


sortedDistIndicies = distances.argsort() 


classCount={} 


#0 (以 下 两 行 ) 选择 距离 最 小 的 k 个 点 


for i in range(k): 


votellabel = labels[sortedDistIndicies[i]] 


classCount[voteIlabel] = classCount.get(votellabel,0) + 1 
sortedClassCount - sorted(classCount.iteritems(), 
se 排序 
key=operator.itemgetter(1), reverse=True) 
return sortedClassCount [0] [0] 
classifyo() 函数 有 4 个 输入 参数 : 用 于 分 类 的 输入 同 量 是 imX， 输 入 的 
训练 样本 和 集 为 dataSet， 标 签 向 量 为 labels ， 最 后 的 参数 k 表示 用 于 选择 
最 近 令 大 的 数目 ， 其 中 标 俭 癌 量 的 元 素数 日 和 矩阵 dataset 的 行 数 相 


同 。 程 序 清单 2-1 使 用 欧 氏 距离 公式 ， 计 算 两 个 向 量 点 xA 和 xB 之 间 的 距 
me: 


d 一 y (xAo = xBg)? 十 (xA4 = xB,)? 


例如 ， 点 (0, 0) 51, 2) 之 间 的 距离 计算 为 : 
v¥(1—0)* + (2—0)? 


2 CHOISIE 则 点 (1 0, 0, 1) 5 (7, 6, 9, 4) 之 间 的 距离 计算 
V (7 —1)? + (6—0)? + (9 —0)? + (4-1)? 


计算 完 所 有 点 之 间 的 距离 后 ， 可 以 对 数据 按照 从 小 到 大 的 次 序 排 序 。 
然后 ， 确 定 前 k 个 距离 最 小 元 系 所 在 的 主要 分 类 四， 输入 k 总 是 正 整 
数 ; 最 后 ， 将 classCount 字 典 分 解 为 元 组 列表 ， 然 后 使 用 程序 第 二 行 导 
入 运算 符 模 块 的 itemgetter 方法 ， 按 照 第 二 个 元 素 的 次 序 对 元 组 进行 
排序 @。 此 处 的 排序 为 逆序 ， 即 按照 从 最 大 到 最 小 次 序 排序 ， 最 后 返 
回 发 生 频率 最 高 的 元 素 标 签 。 


为 了 预测 数据 所 在 分 类 ， 在 Python 提示 符 中 输入 下 列 命令 : 


>>> kNN.classifyO([0,0], group, labels, 3) 
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2.1.3 “如何 测 试 分 类 器 


上 文 我 们 已 经 使 用 k 近 分 算 法 构造 了 第 一 个 分 类 和 右 ， 也 可 以 检验 分 类 骨 
给 出 的 答案 是 否 从 合 我 们 的 预期 。 读 者 可 能 会 问 :“ 分 类 右 何 种 情况 下 
Bite? ?或 者 “答案 是 否 总 是 正确 的 ? "答案 是 否定 的 ， 分 类 万 并 不 会 
得 到 百 分 百 正确 的 结果 ,我 们 可 以 使 用 多 种 方法 检测 分 类 硕 的 正确 
率 。 此 外 分 类 融 的 性 能 也 会 受到 多 种 因素 的 影响 ， 如 分 类 天 设置 和 数 
据 集 等 。 不 同 的 算法 在 不 同 数据 集 上 的 表现 可 能 完全 不 同 ， 这 也 十 本 
部 分 的 6 章 都 在 讨论 分 类 算法 的 原因 所 在 。 


AT MAR SR, BAT LEA CAS RE, SARA 
能 告诉 分 类 器 ， 检 验 分 类 器 给 出 的 结果 是 否 符合 预期 结果 。 通 过 大 量 
的 测试 数据 ， 我 们 可 以 得 到 分 类 絮 的 错误 率 一 一 分 类 絮 给 出 错误 结果 
的 次 数 除 以 测试 执行 的 总 数 。 错 误 率 是 第 用 的 评估 方法 ， 主 要 用 于 评 
估 分 类 器 在 某 个 数据 集 上 的 执行 效果 。 完 半分 类 器 的 错误 率 为 0， 最 差 
分 类 融 的 销 误 率 是 1.0， 在 这 种 情况 下 ， 分 类 夷 根本 束 无 法 找到 一 个 正 
确 答案 。 读 者 可 以 在 后 面 章 节 看 到 实际 的 数据 例子 。 

上 上 一 让 介绍 的 例子 已 经 可 以 正常 运转 了 ， 但 是 并 没有 太 大 的 实际 用 
处 ， 本 章 的 后 两 扩 将 在 现实 世界 中 使 用 k 近 邻 算法 。 首 先 ， 我 们 将 使 用 
k 近 邻 算法 改进 约会 网 站 的 效 末 ， 然 后 使 用 k 近 邻 算法 改进 手写 识别 系 
统 。 本 书 将 使 用 手写 识别 系统 的 测试 程序 检测 k 近 邻 算法 的 效果 。 
2.2 ANB: 使 用 k 近 邻 算法 改进 约会 网 站 
的 配对 效 采 


我 的 朋友 海伦 一 直 使 用 在 线 约会 网 站 寻找 适合 自己 的 约会 对 象 。 尽 管 
约会 网 站 会 推荐 不 同 的 人 选 ， 但 她 没有 从 中 找到 喜欢 的 人 。 经 过 一 番 
总 结 ， 她 发 现 曾 交往 过 三 种 类 型 的 人 : 


。 不 喜欢 的 人 
。 魅力 一 般 的 人 
e 极 具 魅力 的 人 


尽管 发 现 了 上 述 规 律 ， 但 海伦 依然 无 法 将 约会 网 站 推荐 的 匹配 对 象 归 

入 恰当 的 类 别 。 她 觉得 可 以 在 周一 到 周 五 约会 那些 魅力 一 般 的 人 ， 而 

周末 则 更 喜欢 与 那些 极 具 魅力 的 人 为 华 。 海 伦 布 望 我 们 的 分 类 软件 可 

以 更 好 地 帮助 她 将 匹配 对 象 划分 到 确切 的 分 类 中 。 此 外 海伦 还 收集 了 

m i E 
TEESE 


示例 : 在 约会 网 站 上 使 用 k 近 邻 算 法 


1. 收集 数据 : 提供 文本 文件 。 

2. 准备 数据 : 使 用 Python 解析 文本 文件 。 

3. 分 析 数 据 : 使 用 Matplotlib 画 二 维 扩散 图 。 

4. 训 练 算法 : 此 步骤 不 适用 于 k 近 邻 算 法 。 

5. 测试 算法 : 使 用 海伦 提供 的 部 分 数据 作为 测试 样本 。 


测试 样本 和 非 测 试 样本 的 区 别 在 于 :测试 样本 是 已 经 完成 分 类 的 
数据 ， 如 采 预 测 分 类 与 实际 类 别 不 同 ， 则 标记 为 一 个 错误 。 

6. 使 用 算法 : 产生 简单 的 命令 行程 序 ， 然 后 海伦 可 以 输入 一 些 特 征 
数据 以 判断 对 方 是 否 为 目 己 喜欢 的 类 型 。 


224 ”准备 数据 : 从 文本 文件 中 解析 数据 


海伦 收集 约会 数据 已 经 有 了 一 段 时 间 ， 她 把 这 些 数据 存放 在 文本 文件 
datingTestSet.txt 中 ， 每 个 样本 数据 占据 一 行 ， 总 共有 1000 行 。 海 伦 的 样 
本 主要 包含 以 下 3 种 特征 : 


每 年 获得 的 飞行 常客 里 程 数 
玩 视频 游戏 所 耗 时 间 百 分 比 
EUIS SIE 


TE FE EIUREUERGR LA BI Ras ZB, PP DUREE EEASUUS EJ TR Ue 
为 分 类 器 可 以 接受 的 格式 。 在 kNN.py 中 创建 名 为 file2matrix 的 函数 ， 
以 此 来 处 理 输入 格式 问题 。 该 函数 的 输入 为 文件 名 字符 串 ， 输 出 为 训 
练 样本 矩阵 和 类 标签 向 量 。 

将 下 面 的 代码 增加 a 到 kNN.py 中 。 

程序 清单 2-2 将 文本 记录 转换 到 NumpPy 的 解析 程序 


def file2matrix(filename): 
fr = open(filename) 


arrayOlines-fr.readlines() 


numberOfLines - len(arrayOlines) se ”得 到 文件 行 数 


returnMat = zeros((numberOfLines, 3) ) #0 ”创建 返回 的 Numpy 和 矩阵 


classLabelVector = [] 


index = 0 


#0 (以 下 三 行 ) 解析 文件 数据 到 列表 


for line in arrayOlines: 


line - line.strip() 


listFromLine = line.split('\t') 


returnMat [index,:] = listFromLine[0:3] 


classLabelVector.append(int(listFromLine[-1])) 


index += 1 


return returnMat,classLabelVector 


从 上 面 的 代码 可 以 看 到 ，Python 处 理 文本 文件 非常 容易 。 首 先 我 们 需要 
知道 文本 文件 包含 多 少 行 。 打 开 文 件 ， 得 到 文件 的 行 数 @@。 然 后 创建 
以 零 填 充 的 矩阵 NumPy@ 《实际 上 ，NumPy 是 一 个 二 维 数组 ， 这 里 暂 
时 不 用 考虑 其 用 途 ) 。 为 了 简化 处 理 ， 我 们 将 该 矩阵 的 另 一 维度 设置 
为 固定 值 3 ， 你 可 以 按照 自己 的 实际 需求 增加 相应 的 代码 以 适应 变化 的 
输入 值 。 循 环 处 理 文件 中 的 每 行 数据 上 日， 首先 使 用 函数 line.strip() 
截取 掉 所 有 的 回 车 字符 ， 然 后 使 用 tab 字 符 \t 将 上 一 步 得 到 的 整 行 数据 
分 割 成 一 个 元 素 列 表 。 接 着 ， 我 们 选取 前 3 个 元 素 ， 将 它们 存储 到 特征 
和 矩阵 中 。Python 语 言 可 以 使 用 索引 值 -1 表示 列表 中 的 最 后 一 列 元 隶 ， 利 
用 这 种 负 索 引 ， 我 们 可 以 很 方便 地 将 列表 的 最 后 一 列 存储 到 向 量 
classLabelVector 中 。 需 要 注意 的 是 ， 我 们 必须 明确 地 通知 解释 器 ， 
告诉 它 列 表 中 存储 的 元 素 值 为 整 型 ， 否 则 Python 语言 会 将 这 些 元 素 当 作 
字符 串 处 理 。 以 前 我 们 必须 自己 处 理 这 些 变量 值 类 型 问题 ， 现 在 这 些 
细节 问题 完全 可 以 交 给 NumPy 函 数 库 来 处 理 。 


在 Python 命令 提示 符 下 输入 下 面 命 令 : 


>>> reload(kNN) 

>>> datingDataMat, datingLabels = kNN.file2matrix('datingTestSet2.txt') 
使 用 函数 file2matrix 读 取 文 件数 据 ， 必 须 确保 文件 datingTestSet.txt 存 
储 在 我 们 的 工作 目录 中 。 此 外 在 执行 这 个 函数 之 前 ， 我 们 重新 加 载 了 
kNN.py 模 块 ， 以 确保 更 新 的 内 容 可 以 生效 ， 否 则 Python 将 继续 使 用 上 
次 加 载 的 kNN 模 块 。 


成 功 导 入 datingTestSet.txt 文 件 中 的 数据 之 后 ， 可 以 简单 检查 一 下 数据 内 
容 。Python 的 输出 结 东 大 致 如 下 : 


>>> datingDataMat 
array([[ 7.29170000e+04, 7.10627300e+00, 2.23600000e-01], 


[ 1.42830000e+04, 2.44186700e+00, 1.90838000e-01], 


[ 7.34750000e+04, 8.31018900e+00, 8.52795000e-01], 


[ 1.24290000e+04, 4 .43233100e+00, 9.24649000e-01], 
[ 2.52880000e+04, 1.31899030e+01, 1.05013800e+00], 
[ 4.91800000e+03, 3.01112400e+00, 1.90663000e-01]]) 


>>> datingLabels[0:20] 


[3, 2, 1, 1, 1, 1, 3, 3, 1, 3, 1, 1, 2, 1, 1, 1, 1, 1, 2, 3] 


现在 已 经 从 文本 文件 中 导入 了 数据 ， 并 将 其 格式 化 为 想 要 的 格式 ， 接 
着 我 们 需要 了 解数 据 的 真实 含义 。 当 然 我 们 可 以 直接 浏览 文本 文件 ， 
但 是 这 种 方法 非常 不 友好 ， 一 般 来 说 ， 我 们 会 采用 图 形 化 的 方式 直观 
地 展示 数据 。 下 面 束 用 Python 工 具 来 图 形 化 展示 数据 内 容 ， 以 便 辨 识 出 
一 些 数 据 模 式 。 


NumPy 数 组 和 Python 数 组 


本 书 将 大 量 使 用 NumPy 数 组 ， 你 既 可 以 直接 在 Python 命 令 行 环境 
中 输入 from numpy import array 将 其 导入 ， 也 可 以 通过 直接 导入 
所 有 NumPy 库 内 容 来 将 其 导入 。 由 于 NumPy 库 提供 的 数组 操作 并 
不 文 持 Python 目 带 的 数组 类 型 ， 因 此 在 编写 代码 时 要 注意 不 要 使 用 
错误 的 数组 类 型 。 


2.2.2 ”分析 数据 : 使 用 Matplotliib 创 建 散 点 图 


首 移 我 们 使 用 Matplotlib 制 作 原 始 数据 的 散 点 图 ， 在 Python 命令 行 环 境 
中 ， 输 入 下 列 命令 : 


>>> import matplotlib 

>>> import matplotlib.pyplot as plt 

>>> fig = plt.figure() 

>>> ax = fig.add subplot(111) 

>>> ax.scatter(datingDataMat[:,1], datingDataMat[:,2]) 


>>> plt.show() 
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图 2-3 ”没有 样本 类 别 标签 的 约会 数据 散 点 图 。 难 以 辨识 图 中 的 点 究竟 
属于 哪个 样本 分 类 


由 于 没有 使 用 样本 分 类 的 特征 值 ， 我 们 很 难 从 图 2-3 中 看 到 任何 有 用 的 
数据 模式 信息 。 一 般 来 说 ， 我 们 会 采用 色彩 或 其 他 的 记号 来 标记 不 同 
样本 分 类 ， 以 便 更 好 地 理解 数据 信息 。Matplotlib 库 提供 的 scatter 函数 
文 持 个 性 化 标记 散 点 图 上 的 点 。 重 新 输入 上 面 的 代码 ， 调 用 scatter EN 
数 时 使 用 下 列 参数 : 


>>> ax.scatter(datingDataMat[:,1], datingDataMat[:,2], 


15.0*array(datingLabels), 15.0*array(datingLabels)) 


上 上 述 代 码 利用 变量 datingLabels 存 储 的 类 标 侈 属性 ， 在 散 扣 图 上 绘制 了 

色彩 不 等 、 扩 才 不 同 的 操 。 你 可 以 看 到 一 个 与 图 2-3 类 似 的 散 点 岁 。 从 
图 2-3 中 ， 我 们 很 难看 到 任何 有 用 的 信息 ， 然 而 由 于 图 2-4 利 用 颜色 及 太 
寸 标 识 了 数据 点 的 属性 类 别 ， 因 而 我 们 基本 上 可 以 从 图 2-4 中 看 到 数据 
点 所 属 三 个 样本 分 类 的 区 域 轮廓 。 
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图 2-4” 带 有 样本 分 类 标签 的 约会 数据 散 点 图 。 虽 然 能 够 比较 容易 地 区 
分 数据 点 从 属 类 别 ， 但 依然 很 难 根据 这 张 图 得 出 结论 性 信息 


本 节 我 们 学 习 了 如 何 使 用 Matplotlib 库 图 形 化 展示 数据 ， 图 2-4 使 用 了 
datingDataMat 短 阵 的 第 二 和 第 三 列 属性 来 展示 数据 ， 虽 然 也 可 以 区 

分 ， 但 图 2-5 采 用 和 窍 阵 第 一 和 第 二 列 属性 却 可 以 得 到 更 好 的 展示 效 采 ， 
图 中 清晰 地 标识 了 三 个 不 同 的 样本 分 类 区 域 ， 具 有 不 同 爱好 的 人 其 类 
别 区 域 也 不 同 。 


0 20000 40000 60000 80000 100000 


每 年 获取 的 飞行 常客 里 程 数 


图 2-5 ”每 年 赢得 的 飞行 常客 里 程 数 与 玩 视频 游戏 所 占 百 分 比 的 约会 数 
据 散 点 图 。 约 会 数据 有 三 个 特征 ， 通 过 图 中 展示 的 两 个 特征 更 容易 区 
分 数据 点 从 属 的 类 别 


2.2.3 ”准备 数据 : 归 一 化 数值 


表 2-3 给 出 了 提取 的 四 组 数据 ， 如 琳 想 要 计算 样本 3 和 样本 4 之 间 的 距 
离 ， 可 以 使 用 下 面 的 方法 : 


(0— 67). +(20 000 — 32 000)? +(1.1-0.1)° 


我 们 很 容易 发 现 ， 上 面 方程 中 数字 差 值 最 大 的 属性 对 计算 结果 的 影响 
最 大 ， 也 就 是 说 ， 每 年 获取 的 飞行 常客 里 程 数 对 于 计算 结果 的 有 影响 将 
远 远 大 于 表 2-3 中 其 他 两 个 特征 一 一 玩 视频 游戏 的 和 每 周 消费 冰 淇 淋 公 
升 数 一 一 的 影响。 而 产生 这 种 现象 的 唯一 原因 ， 仪 仅 古 因为 飞行 常客 
里 程 数 远大 于 其 他 特征 值 。 但 海伦 认为 这 三 种 特征 是 同等 重要 的 ， 因 
en 
影响 到 计算 结果 e 


表 2-3 约会 网 站 原始 数据 改进 之 后 的 样本 数据 


玩 视 频 游戏 所 耗 时 间 百 分 比 ”每 年 获得 的 飞行 常客 里 程 数 ”每 周 消费 的 冰淇淋 公升 数 ”样本 分 类 
1 0.8 400 0.5 1 
2 12 134 000 0.9 3 
3 0 20 000 14 2 
4 2 


67 32 000 0.1 


在 处 理 这 种 不 同 取 值 范围 的 特征 值 时 ， 我 们 通常 采用 的 方法 是 将 数值 
归 一 化 ， 如 将 取 值 范围 处 理 为 0 到 1 或 者 -1 到 1 之 间 。 下 面 的 公式 可 以 将 
任意 取 值 范围 的 特征 值 转化 为 0 到 1 区 间 内 的 值 : 


newValue = (oldValue-min)/(max-min) 


其 中 min 和 max 分 别 是 数据 集中 的 最 小 特征 值 和 最 大 特征 值 。 昌 然 改 变 
数值 取 值 范 围 增加 了 分 类 句 的 复杂 度 ， 但 为 了 得 到 准确 结果 ， 我 们 必 
须 这 样 做 。 我 们 需要 在 文件 kKNN.py 中 增加 一 个 新 函数 autoNorm() ， 该 
函数 可 以 目 动 将 数字 特征 值 转化 为 0 到 1 的 区 间 。 
程序 清单 2-3 ”提供 了 函数 autoNorm( ) 的 代码 。 
程序 清单 2-3” 归 一 化 特征 值 

def autoNorm(dataSet): 


minVals = dataSet.min(0) 


maxVals - dataSet.max(0) 


ranges - maxVals - minVals 


normDataSet = zeros(shape(dataSet)) 


m = dataSet.shape[0] 


normDataSet = dataSet - tile(minVals, (m,1)) 


normDataSet = normDataSet/tile(ranges, (m,1)) #0 特征 值 相 除 


return normDataSet, ranges, minVals 


在 函数 autoNorm( ) 中 ， 我 们 将 每 列 的 最 小 值 放 在 变量 minvals 中 ， 将 最 
大 值 放 在 变量 maxvals 中 ， 其 中 dataset ,min(9) 中 的 参数 0 使 得 函数 可 
以 从 列 中 选取 最 小 值 ， 而 不 是 选取 当前 行 的 最 小 值 。 然 后 ， 函 数 计算 
可 能 的 取 值 范围 ， 并 创建 新 的 返回 矩阵 。 正 如 前 面 给 出 的 公式 ， 为 了 
归 一 化 特征 值 ， 我 们 必须 使 用 当前 值 减 去 最 小 值 ， 然 后 除 以 取 值 疙 

。 需 要 注意 的 是 ， 特 征 值 矩阵 有 1000 x 3 个 值 ， 而 minvals 和 range 的 
值 都 为 1x3。 为 了 解决 这 个 问题 ， 我 们 使 用 NumPy 库 中 tile() 函数 将 
变量 内 容 复制 成 输入 矩阵 同样 大 小 的 矩阵 ， 注 意 这 是 具体 特征 值 相 除 
四 ， 而 对 于 某 些 数值 处 理 软件 包 ，/ 可 能 意味 着 矩阵 除法 ， 但 在 NumPy 
inm, 和 矩阵 除法 需要 使 用 函数 linalg.solve(matA, matB) 8 


在 Python 命令 提示 人 符 下 ， 重新 加 载 KNN.py 模 块 ， 执 行 autoNorm 函数 ， 
仿 测 函数 的 执行 结果 : 


>>> reload(kNN) 


>>> normMat, ranges, minVals = kNN.autoNorm(datingDataMat) 


>>> normMat 


array([[ 0.33060119, ©.58918886, 0©.69043973], 


[ 0.49199139, 0.50262471, 0.13468257], 


[ 0.34858782, 0.68886842, 0.59540619], 


[ 0.93077422, 4 0.52696233, 0.58885466], 

[ 0.76626481, 0.44109859, 0.88192528], 

[ 0.0975718 , 0.02096883, 0.02443895]]) 
>>> ranges 
array([ 8.78430000e404, | 2.02823930e401, 1.69197100e+00]) 
>>> minVals 


array([ 0. , 89. , ©.001818] ) 


这 里 我 们 也 可 以 只 返回 normMat ERE, [Hii P— 1 RIT a EE FRI 
和 最 小 值 归 一 化 测试 数据 。 


2.2.4 测试 算法 : 作为 完整 程序 验证 分 类 器 


上 上 市 我 们 已 经 将 数据 按照 需求 做 了 处 理 ， 本 市 我 们 将 测试 分 类 器 的 效 
果 ， 如 来 分 类 楷 的 正确 率 满足 要 求 ， 海 伦 束 可 以 使 用 这 个 软件 来 处 理 
约会 网 站 提供 的 约会 名 单 了 。 机 旭 学 习 算 法 一 个 很 重要 的 工作 束 古 评 
估算 法 的 正确 率 ， 通 第 我 们 只 提供 已 有 数据 的 90% 作 为 训练 样本 来 训练 
分 类 器 ， 而 使 用 其 余 的 10% 数 据 去 测试 分 类 妖 ， 检 测 分 类 器 的 正确 率 。 
本 书后 续 革 市 还 会 介绍 一 些 高 级 方法 完成 同样 的 任务 ， 这 里 我 们 还 是 
采用 最 原始 的 做 法 。 需 要 注意 的 是 ，10% 的 测试 数据 应 该 是 随机 选择 
的 ， 由 于 海伦 提供 的 数据 并 没有 按照 特定 目的 来 排序 ， 所 以 我 们 可 以 
随意 选择 10% 数 据 而 不 影响 其 随机 性 。 


前 面 我 们 已 经 提 到 可 以 使 用 锯 谍 率 来 检测 分 类 妖 的 性 能 。 对 于 分 类 表 
来 说 ， 错 误 率 束 足 分 类 右 给 出 错误 结 末 的 次 数 除 以 测试 数据 的 总 数 ， 

完美 分 类 器 的 错误 率 为 0， 而 错误 率 为 1.0 的 分 类 顺 不 会 给 出 任何 正确 的 
分 类 结果 。 代 码 里 我 们 定义 一 个 计数 右 变 量 ， 每 次 分 类 器 错误 地 分 类 
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即 是 错误 率 。 


为 了 测试 分 类 器 效果 ， 在 kNN.py 文 件 中 创建 画 数 datingclassTest ， 该 
函数 是 目 包 含 的 ， 你 可 以 在 任何 时 候 在 python 运 行 环 : 境 中 使 用 该 画 数 测 
斌 分 类 器 效果 。 在 kNN.py 文 件 中 输入 下 面 的 程序 代码 。 


程序 清单 2-4 分 类 器 针对 约会 网 站 的 测试 代码 


def datingClassTest(): 
hoRatio - 0.10 
datingDataMat,datingLabels - file2matrix('datingTestSet.txt') 
normMat, ranges, minVals - autoNorm(datingDataMat) 
m = normMat.shape[0] 
numTestVecs - int(m*hoRatio) 
errorCount - 0.0 
for i in range(numTestVecs): 
classifierResult = classifyO(normMat[i,:],normMat[numTestVecs:m, :], N 
datingLabels[numTestVecs:m], 3) 
print "the classifier came back with: %d, the real answer is: %d"\ 
96 (classifierResult, datingLabels[i]) 
if (classifierResult !- datingLabels[i]): errorCount += 1.0 


print "the total error rate is: %f" % (errorCount/float(numTestVecs)) 


函数 datingclassTest 如 程序 清单 2.4 所 示 ， 它 首先 使 用 了 file2matrix 
和 autoNorm( ) 函数 从 文件 中 读 取 数据 并 将 其 转换 为 归 一 化 特征 值 。 接 
着 计算 测试 辐 量 的 数量 ， 此 步 决 定 了 normMat 癌 量 中 哪些 数据 用 于 测 
试 ， 哪 些 数据 用 于 分 类 器 的 训练 样本 ;， 然 后 将 这 两 部 分 数据 输入 到 原 
BkNN42S$&ÉNZNclassifyo oma, NAT Ries aR e VE 
意 此 处 我 们 使 用 原始 分 类 器 ， 本 章 花 费 了 大 量 的 篇 幅 在 讲解 如 何 处 理 
数据 ， 如 何 将 数据 改造 为 分 类 器 可 以 使 用 的 特征 值 。 得 到 可 靠 的 数据 
同样 重要 ， 本 书后 续 的 章节 将 介绍 这 个 主题 。 


在 Python 命令 提示 符 下 重新 加 载 KNN 模 块 ， 并 输入 
kNN.datingClassTest(), 执行 分 类 器 测试 程序 ， 我 们 将 得 到 下 面 的 输 
出 结果 : 


>>> kNN.datingClassTest() 
the classifier came back with: 1, the real answer is: 1 


the classifier came back with: 2, the real answer is: 2 


the classifier came back with: 1, the real answer is: 1 
the classifier came back with: 2, the real answer is: 2 
the classifier came back with: 3, the real answer is: 3 
the classifier came back with: 3, the real answer is: 1 
the classifier came back with: 2, the real answer is: 2 
the total error rate is: 0.024000 


分 类 器 处 理 约会 数据 集 的 错误 率 是 2.4%， 这 是 一 个 相当 不 错 的 结果 。 
我 们 可 以 改变 函数 datingclassTest 内 变量 hoRatio 和 变量 k 的 值 ， 检 测 
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序 设 置 ， 分 类 器 的 输出 结果 可 能 有 很 大 的 不 同 。 

这 个 例子 表明 我 们 可 以 正确 地 预测 分 类 ， 错 误 率 仅仅 是 2.496。 海 伦 完 
全 可 以 输入 未 知 对 象 的 属性 信息 ， 由 分 类 软件 来 帮助 她 判定 某 一 对 和 象 
的 可 交往 程度 : 讨厌 、 一 般 喜 欢 、 非 党 喜欢 。 


2.2.5 “使 用 算法 : 构建 完整 可 用 系统 

上 面 我 们 已 经 在 数据 上 对 分 类 器 进 行 了 测试 ， 现 在 终于 可 以 使 用 这 个 
分 类 器 为 海伦 来 对 人 们 分 类 。 我 们 会 给 海伦 一 小 段 程序 ， 通 过 该 程序 
海伦 会 在 约会 网 站 上 找到 某 个 人 并 输入 他 的 信息 。 程 序 会 给 出 她 对 对 
方 喜 欢 程 度 的 预测 值 。 

将 下 列 代 码 加 入 到 kNN.py 并 重新 载 入 NN © 


程序 清单 2-5 ”约会 网 站 预测 函数 


def classifyPerson(): 


resultList - ['not at all','in small doses', 'in large doses'] 


percentTats = float(raw_input(\ 


"percentage of time spent playing video games?")) 


ffMiles - float(raw input("frequent flier miles earned per year?")) 


iceCream - float(raw input("liters of ice cream consumed per year?")) 


datingDataMat,datingLabels = file2matrix('datingTestSet2.txt') 


normMat, ranges, minVals - autoNorm(datingDataMat) 


inArr - array([ffMiles, percentTats, iceCream]) 


classifierResult = classify0((inArr-\ 


minVals)/ranges, normMat, datingLabels, 3) 
print "You will probably like this person: ",\ 
resultList[classifierResult - 1] 
上 述 程序 清单 中 的 大 部 分 代码 我 们 在 前 面 都 见 过 。 唯 一 新 加 入 的 代码 


XE ERA raw input() 。 该 男 数 允许 用 户 昔 入 文本 行 命令 并 返回 用 户 所 和 葵 
入 的 内 容 。 为 了 解 程序 的 实际 运行 效 末 ， 输 入 如 下 命令 : 


>>> kNN.classifyPerson() 


percentage of time spent playing video games?10 


frequent flier miles earned per year?10000 


liters of ice cream consumed per year?0.5 


You will probably like this person: in small doses 


目前 为 止 ， 我 们 已 经 看 到 如 何在 数据 上 构建 分 类 器 。 这 里 所 有 的 数据 

让 人 看 起 来 都 很 容易 ， 但 是 如 何在 人 不 太 容 易 看 慌 的 数据 上 使 用 分 类 

pL Le Mud 
kNN ° 


2.3 ”不 例 : 手写 识别 系统 

本 区 我 们 一 步 步 地 构造 使 用 k 近 邻 分 类 天 的 手写 识别 系统 。 为 了 简单 起 
见 ， 这 里 构造 的 系统 只 能 识别 数字 0 到 9， 参 见 图 2-6。 需 要 识别 的 数字 
已 经 使 用 图 形 处 理 软 件 ， 处 理 成 具有 相同 的 色彩 和 大 小 ':， 视 高 是 32 像 
素 x32 像 素 的 黑 日 图 像 。 尽管 采用 文本 格式 存储 图 像 不 能 有 效 地 利用 内 
存 空间 ， 但 古 为 了 方便 理解 ， 我 们 还 是 将 图 像 转 换 为 文本 格式 。 


示例 : 使 用 k- 近 邻 算 法 的 手写 识别 系统 
1. 收集 数据 : 提供 文本 文件 。 


a M ME 

Jlist H EL ° 

3. 分 析 数 据 ; 在 Python 命令 提示 符 中 检查 数据 ， 确 保 它 符合 要 求 。 

4. 训 练 算法 : 此 步骤 不 适用 于 k 近 邻 算 法 。 

5. 测 试 算法 : 编写 函数 使 用 提供 的 部 分 数据 集 作为 测试 样本 ， 测 试 
样本 与 非 测 试 样本 的 区 别 在 于 测试 样本 是 已 经 完成 分 类 的 数据 ， 
如 果 预 测 分 类 与 实际 类 别 不 同 ， 则 标记 为 一 个 错误 。 

6. 使 用 算法 : 本 例 没 有 完成 此 步骤 ， 若 你 感 兴趣 可 以 构建 完整 的 应 
用 程序 ， 从 图 像 中 提取 数字 ， 并 完成 数字 识别 ， 美 国 的 邮件 分 拒 
系统 就 是 一 个 实际 运行 的 类 似 系 统 。 


1. 该 数据 集合 修改 自 "手写 数字 数据 集 的 光学 识别 "一 文中 的 数据 集合 ， 该 文登 载 于 2010 年 10 月 3 日 的 UCI 机 器 学 习 资 料 库 中 http://archive.ics.uci.edu/ml 。 作 者 是 土耳其 伊 斯 


坦 布尔 海峡 大 学 计算 机 工程 系 的 E. Alpaydin 与 C. Kaynak ° 


2.3.1 ”准备 数据 将 图 像 转换 为 测试 向 量 


实际 图 像 存 储 在 第 2 章 源 代码 的 两 个 子 目 录 内 :目录 trainingDigits 中 包 
含 了 大 约 2000 个 例子 ， 每 个 例子 的 内 容 如 图 2-6 所 示 ， 每 个 数字 大 约 有 
200 个 样本 ; HoKtestDigits"" 5 TAZ 900 T DU AES * Ri EH H xK 
trainingDigits 中 的 数据 训练 分 类 器 ， 使 用 目录 testDigits 中 的 数据 测试 分 
类 器 的 效果 。 两 组 数据 没有 重合 ， 你 可 以 检查 一 下 这 些 文件 来 的 文件 


是 否 符合 要 求 。 


86860600000000000006001111110006060869 000000001111111000000000000000080 Q000000000111111111110000B8BBA0A440 
0800000008800800011111111110000080 008080001111111110000000000000008 0608000000111111111111100008000008 
00000000800000111111111111000008 00000011111111111100000000000008 000000001111111111111110000080008 
088000088888011111111111111100088 800880111111111111100000000000008 08888800601111111111111100888888808 
80000080000111111111111111000000 008080111111111111110000000000008 009880900111111111111110000000008 
00000800801111111100111111000008 0880001111111111 DBDDBDBB88090889 GOBODOBROHÀ:11100000111100000000008 
880008888111111100008011111000088 0888001111111111 1000000000000 6009800000008090009811110090990000 
880000080111111100000111110000000 00000001 11100011 1100000000008 0000000000080 9909001 1110000000000 


8009000801 1 
000000001 
B00000111 


Í 1080000000008 08088800008888889801 1 1 1PPAAHAAHHAB 
11 
11 
888900011111 
1 
11 
1 


1080000000008 09880880808BOOOOOOO1111000080080008 
110000800008 000000000008600001111100000000000 


11800000111100000008 800000001 1000001 
1888880011110000808880 08009009090000990001 
5151515151515 9 1 B p 1151515151515] 151516 6151015151515 1616151015] 


1 
1 
Í 
11 
11 
11 
11 
11110000000000 0808800085886 
11 
11 
11 
11 
11 
1 
1 


1 

11 

11 

11 

11 

1 11 

1 11 

1 11 
180888801 1000008080880 0080000888898 90801 1 1100088000008 0908BBGORBRBOBOOOU111100008000008 
8880800811111108888011111100008008 8090809099000000089900011 1111100088088 008 
8000000011 111008801111110000088 00000000000800001111110000000000 0020000080008800111111111111000000 
9800000811111111180001111110000008 08090890900000900000011 1180000800008 090888000011111111111111111000000 
880088088011111111111111100000088 088008008088809801 11 180000000088 00000000111111111111111111100000 
88000088880111111111111100000088 00080000008800011111100000000080 880886000111111111111111111100800 
880000888800111111111111000000008 00000000088800011111000000000000 000000001111111111111111111000008 
0900000000000000111111110000000080 000000000880800111111000000000008 090000000111111111111111111100008 
889800000800000000111111 808088088 000000OOOOOOOROU11110000000000000 00088000111011111008011110000000 
90000088B8B80000080111111000000008 000000008890901111110000000000000 00086800000068111118890000668000006 
8800000080000008111111000000000080 00000000880011111100000000000000 0000000000090111100000000600000900 
98000080890000811111100000000000 000000008088011111100000000000000 £00BBODOOBAOOE11110000000BBBOBOOOD 
8800008000008001111110000800008008 000000000880111111000000000000008 9608000006096801111000900000006800000 
900000000800000111111000000000008 00000000001111111000000000000008 900000000000111110800000000800000 
888000800000001111110000000000080 00000000001111110000111111000008 £8000000000111110000000000DOOOO0008 
8080080888000 081111110000000008088 06009000011 11111111111111100000 988888800888111110008800BBBBBBOBOB 
00000000000000111111008090000000 0080000111 111111111111111 80088 000000000111110000090000090900000 
9880080888808008111111000000000088 00809891111 11111111111111100088 008880901111110000800000088B868008 
DBDDDBBBD00DB06t1tiiiiiLDppbDDopDDDBDB 4688081111 11111111111111100008 900009001111100000009900009g0000 
8000000000000001111100809000008060 BEHHH11111 11111111111110000000 G00000001111000060000900000000000 
909000000090000000011110009000000000 009011111 1111111€ 11900000000000000090000 


图 2-6 手写 数字 数据 集 的 例子 
为 了 使 用 前 面 两 个 例子 的 分 类 器 ， 我 们 必须 将 图 像 格式 化 处 理 为 一 个 
向 量 。 我 们 将 把 一 个 32x32 的 二 进 制 图 像 矩 阵 转 换 为 1x1024 的 向 量 ， 这 
样 前 两 节 使 用 的 分 类 句 就 可 以 处 理 数字 图 像 信息 了 。 
我 们 首先 编写 一 段 函 数 img2vector ， 将 图 像 转 换 为 向 量 : 该 函数 创建 
1x1024 的 NumPy 数 组 ， 然 后 打开 给 定 的 文件 ， 循 环 恋 出 文件 的 前 32 
行 ， 并 将 每 行 的 头 32 个 字符 值 存 储 在 NumPy 数 组 中 ， 最 后 返回 数组 。 
def img2vector(filename): 

returnVect - zeros((1,1024)) 

fr - open(filename) 

for i in range(32): 


lineStr = fr.readline() 


for j in range(32): 


returnVect[0,32*i+j] = int(lineStr[j]) 


return returnVect 


将 上 述 代 码 输入 到 kNN.py 文 件 中 ， 在 Python 命 令 行 中 输入 下 列 命 令 测 
iimg2vector 函数 ， 然后 与 文本 编辑 器 打开 的 文件 进行 比较 : 


>>> testVector = kNN.img2vector('testDigits/O 13.txt') 


>>> testVector[0,0:31] 


array([ 0., 0., 0., 0., 0., O., 0., 0., O., 0., 0., 
0., 0 
0 1 1 d 1 0., 0 0 0 0 0 
0., 0 
0 0., 0 0., 9.]) 


>>> testVector[0,32:63] 


array([ 0., 0., O., 0., 0., O., 0., Qi O., 0., 0., 
0., 1 
1 1., 1 1 ERE ee 0 0 0 0 0 
0., 0 
0., 0 0 0., 9.]) 


2.3.2 ”测试 算法 : 使 用 k 近 邻 算法 识别 手写 数字 


上 克 我 们 已 经 将 数据 处 理 成 分 夫 右 可 以 识别 的 格式 ， 本 区 我 们 将 这 些 
数据 输入 到 分 类 器 ， 检 测 分 类 器 的 执行 效果 。 程 序 清单 2-6 所 示 的 自 包 
kj BLhandwritingClasstest() AE AT RAs IRA, 将 其 写 入 


kNN.py 文 件 中 。 在 写 入 这 些 代码 之 前 ， 我 们 必须 确保 将 from os 

import listdir 写 入 文件 的 起 始 部 分 ， 这 段 代 码 的 主要 功能 是 从 os 模块 
中 导入 函数 listdir ， 它 可 以 列 出 给 定 目 如 的 文件 名 。 

程序 清单 2-6 手写 数字 识别 系统 的 测试 代码 


def handwritingClassTest(): 


hwLabels - [] 


trainingFileList = listdir('trainingDigits') #0 获取 目录 内 容 


m = len(trainingFileList) 


trainingMat - zeros((m,1024)) 


for i in range(m): 


#0 (以 下 三 行 ) 从 文件 名 解析 分 类 数字 


fileNamestr = trainingFileList[i] 


fileStr = fileNameStr.split('.')[0] 


classNumStr - int(fileStr.split(' ')[0]) 


hwLabels.append(classNumStr ) 


trainingMat[i,:] = img2vector('trainingDigits/%s' % fileNameStr ) 


testFileList = listdir('testDigits') 


errorCount = 0.0 


mTest = len(testFileList) 


for i in range(mTest): 


fileNamestr = testFileList[i] 


fileStr = fileNameStr.split('.')[0] 


classNumStr - int(fileStr.split(' ')[0]) 


vectorUnderTest = img2vector('testDigits/%s' % fileNameStr) 


classifierResult - classifyO(vectorUnderTest, trainingMat, hwLabels, 3) 


print "the classifier came back with: %d, the real answer is: %d"\% (cla 


ssifierResult, classNumstr) 


if (classifierResult !- classNumStr): errorCount += 1.0 


print "\nthe total number of errors is: %d" % errorCount 


print "\nthe total error rate is: %f" % (errorCount/float(mTest)) 


在 程序 清单 2-6 中 ， 将 trainingDigits 目 录 中 的 文件 内 容 存储 在 列表 中 @， 
然后 可 以 得 到 目录 中 有 多 少 文件 ， 并 将 其 存储 在 变量 m 中 。 接 着 ， 代 码 
创建 一 个 mn 行 1024 列 的 训练 矩阵 ， 该 矩阵 的 每 行 数据 存储 一 个 图 像 。 我 
们 可 以 从 文件 名 中 解析 出 分 类 数字 @。 该 目录 下 的 文件 按照 规则 命 
名 ， 如 文件 9_45.txt 的 分 类 是 9， 它 是 数字 9 的 第 45 个 实例 。 然 后 我 们 可 
以 将 类 代码 存储 在 hwLabels 回 量 中 ， 使 用 前 面 讨论 的 ijmg2vector 函数 
载 入 图 像 。 在 下 一 步 中 ， 我 们 对 testDigits 目 录 中 的 文件 执行 相似 的 操 
作 ， 不 同 之 处 是 我 们 并 不 将 这 个 目录 下 的 文件 载 入 和 窍 阵 中 ， 而 是 使 用 
classifyo() 函数 训 试 该 目 孙 下 的 每 个 文件 。 由 于 文件 中 的 人 已 经 在 0 
和 1 之 间 ， 本 和 并 不 需要 使 用 2.2 节 的 autoNorm() 函数 。 


在 Python 命令 提示 符 中 输入 kNN.handwritingclassTest() , IW X ERZX 
的 输出 结 采 。 依 赖 于 机 费 速 度 ， 加 载 数 据 集 可 能 需要 花费 很 长 时 间 ， 
然后 函数 开始 依次 测试 每 个 文件 ， 输 出 结果 如 下 所 示 : 


>>> kNN.handwritingClassTest() 


the classifier came back with: 0, the real answer is: 0 


the classifier came back with: 0, the real answer is: 0 


the classifier came back with: 7, the real answer is: 7 
the classifier came back with: 7, the real answer is: 7 
the classifier came back with: 8, the real answer is: 8 
the classifier came back with: 8, the real answer is: 8 
the classifier came back with: 8, the real answer is: 8 


the classifier came back with: 6, the real answer is: 8 


the classifier came back with: 9, the real answer is: 9 
the total number of errors is: 11 


the total error rate is: 0.011628 


k 近 邻 算 法 识别 手写 数字 数据 集 ， 错 误 率 为 1.2%。 改 变 变 量 k 的 值 、 修 
PLEA @handwritingClasstest 随机 远 取 训 | 练 样 本 、 改 变 训 练 样本 的 数 
目 ， 都 会 对 k 近 邻 算 法 的 错误 率 产 生 影响 ， 感 兴趣 的 话 可 以 改变 这 些 变 
量 值 ， 观 察 错误 率 的 变化 。 


实际 使 用 这 个 算法 时 ， 算 法 的 执行 效率 并 不 高 。 因 为 算法 需要 为 每 个 


测试 向 量 做 2000 次 距离 计算 ， 每 个 距离 计算 包括 了 1024 个 维度 浮 点 运 
算 ， 总 计 要 执行 900 次 ， 此 外 ,我 们 还 需要 为 测试 问 量 准备 2MB 的 存储 


空间 。 是 否 存在 一 种 算法 减少 存储 空间 和 计算 时 间 的 开销 昵 ? RSE 
就 是 k 近 邻 算法 的 优化 版 ， 可 以 节省 大 量 的 计算 开销 。 


24 ”本章 小 结 


k 近 邻 算法 是 分 类 数据 最 简单 最 有 效 的 算法 ， 本 章 通过 两 个 例子 讲述 了 
如 何 使 用 k 近 邻 算法 构造 分 类 器 。k 近 邻 算法 是 基于 实例 的 学 习 ， 使 用 
算法 时 我 们 必须 有 接近 实际 数据 的 训练 样本 数据 。k 近 邻 算法 必须 保存 
全 部 数据 集 ， 如 果 训 练 数据 集 的 很 大 ， 必 须 使 用 大 量 的 存储 空间 。 此 
外 由 于 必须 对 数据 集中 的 每 个 数据 计算 距离 值 ， 实 际 使 用 时 可 能 
常 耗 时 。 


K 近 邻 算法 的 为 一 个 缺陷 钙 它 无 法 给 出 任何 数据 的 基础 结构 信息 ， 因 此 
我 们 也 无 法 知晓 平均 实例 样本 和 典型 实例 样本 具有 什么 特征 。 下 一 章 
我 们 将 使 用 概率 测量 方法 处 理 分 类 问题 ， 该 算法 可 以 解决 这 个 问题 。 


第 3 章 ”决策 树 


本 章 内 容 


。 决策 树 简 介 

。 在 数据 集中 度量 一 致 性 
。 使 用 递归 构造 决策 树 

。 使 用 Matplotlib 绘 制 树 形 图 


你 是 否 玩 过 二 十 个 问题 的 游戏 ， 游 戏 的 规则 很 简单 : 参与 游戏 的 一 方 
在 脑海 里 想 某 个 事物 ， 其 他 参与 者 辣 他 提问 题 ， 只 人 允许 提 20 个 问题 ， 
问题 的 答案 也 只 能 用 对 或 销 回 答 。 问 问题 的 人 通过 推 叮 分 解 ， 逐 步 缩 
小 待 猜 测 事物 的 范围 。 决 策 树 的 工作 原理 与 20 个 问题 类 似 ， 用 户 输入 
一 系列 数据 ， 然 后 给 出 游戏 的 答案 。 


我 们 经 闻 使 用 决 介 树 处 理 分 类 问题 ， 近 来 的 调查 表明 决 梨 树 也 十 最 经 


党 使 用 的 数据 控 气 算法 '。 不 需要 了 解 机 器 学 习 的 知识 ， 束 能 搞 明日 决 
策 树 是 如 何 工作 的 。 


1. Giovanni Seni and John Elder, Ensemble Methods in Data Mining: Improving Accuracy Through Combining Predictins , Synthesis Lectures on Data Mining and Knowledge 


Discovery (Morgan and Claypool, 2010), 28. 


如 果 你 以 前 没有 接触 过 决策 树 ， 完 全 不 用 担心 ， 它 的 概念 非常 简单 。 
即使 不 知道 它 也 可 以 通过 简单 的 图 形 了 解 其 工作 原理 ， 图 3-1 所 示 的 沈 
程 图 就 是 一 个 决策 树 ， 长 方形 代表 判断 模块 (decision block) , HIE 
形 代 表 终 止 模块 (terminating block) ， 表 示 已 经 得 出 结论 ， 可 以 终止 
运行 。 从 判断 模块 引出 的 左右 箭头 称 作 分 支 (branch) ， 它 可 以 到 达 
另 一 个 判断 模块 或 者 终止 模块 。 图 3-1 构 造 了 一 个 假想 的 邮件 分 类 系 

统 ， 它 首先 检测 发 送 邮 件 域名 地 址 。 如 果 地 址 为 nyEmployercom， 则 
将 其 放 在 分 类 “无 聊 时 需要 阅读 的 邮件 ”中 。 如 果 邮 件 不 是 来 自 这 个 域 
名 ， 则 检查 邮件 内 容 里 是 否 包含 单词 曲棍球 ， 如 果 包 含 则 将 邮件 归 类 
WU M 如 果 不 包 含 则 将 邮件 归 类 到 “无 需 阅 读 
Jay. 22.56 


发 送 邮件 域名 地 址 为 : 


myEmployer.com 


无 聊 时 需要 包含 单词 “ 曲 棍 
阅读 的 邮件 球 ” 的 邮件 


需要 及 时 处 理 的 
朋友 邮件 


无 需 阅读 的 
垃圾 邮件 


图 3-1 流程 图 形式 的 决策 树 

第 2 章 介绍 的 k -近邻 算法 可 以 很 好 地 完成 分 类 任务 ， 但 是 它 最 大 的 缺点 
这 是 天 法 给 出 数据 的 内 在 信义， 决策 许 的 主要 优 势 就 在 了 数据 形式 非 
常 容易 理解 。 


本 章 构 造 的 决策 树 滤 法 能 够 读 取 数据 集合 ， 构 建 类 似 于 图 3-1 的 决策 
树 。 决 策 树 的 一 个 重要 任务 是 为 了 数据 中 所 强 含 的 知识 信息 ， 因 此 决 
策 树 可 以 使 用 不 熟悉 的 数据 集合 ， 并 从 中 提取 出 一 系列 规则 ， 在 这 些 
机 器 根据 数据 创建 规则 时 ， 束 是 机 器 学 习 的 过 程 。 专 家 系统 中 经 常 使 
用 决策 树 ， 而 且 决 全 树 给 出 结果 往往 可 以 匹敌 在 当前 领域 具有 几 十 年 
工作 经 验 的 人 类 专家 。 


现在 我 们 已 经 大 致 了 解 了 决策 树 可 以 完成 哪些 任务 ， 接 下 来 我 们 将 学 
习 如 何 从 一 堆 原 始 数据 中 构造 决策 树 。 首 移 我 们 讨论 构造 决策 树 的 方 
法 ， 以 及 如 何 编写 构造 树 的 Python 代码 ;接着 提出 一 些 度量 算法 成 功率 
的 方法 ;， 最 后 使 用 递归 建立 分 类 器 ， 并 且 使 用 Matplotlib 绘 制 决策 树 
图 。 构 造 完成 决策 树 分 类 表 之 后 ， 我 们 将 输入 一 些 隐 形 眼镜 的 处 方 数 
据 ， 并 由 决策 树 分 类 器 预测 需要 的 镜片 类 型 。 


3.1 决策 树 的 构造 
决策 树 


优点 : 计算 复杂 度 不 高 ， 输 出 结果 易于 理解 ， 对 中 间 值 的 缺失 不 
敏感 ， 可 以 处 理 不 相关 特征 数据 。 


缺点 ， 可 能 会 产生 过 上 度 匹 配 问题 。 
适用 数据 类 型 ， 数值 型 和 标 称 型 。 


本 世 将 一 步 步 地 构造 决策 网 ， 并 会 涉及 许多 有 趣 的 细 世 。 首 和 我 们 讨 
论 数学 上 如 何 使 用 信息 论 划分 数据 集 ， 然 后 编写 代码 将 理论 应 用 到 具 
体 的 数据 集 上 ， 最 后 编写 代码 构建 决策 树 。 


在 构造 决策 树 时 ， 我 们 需要 解决 的 第 一 个 问题 束 是 ， 当 前 数据 集 上 哪 
个 特征 在 划分 数据 分 类 时 起 决定 性 作用 。 为 了 找到 决定 性 的 特征 ， 划 
分 出 最 好 的 结 采 ， 我 们 必须 评 佑 每 个 特征 。 完 成 测 弃 之 后 ， 原 始 数据 
集束 被 划分 为 几 个 数据 子 集 。 这 些 数 据 子 集会 分 布 在 第 一 个 决策 后 的 
所 有 分 文 上 。 如 果 某 个 分 文 下 的 数据 属于 同一 类 型 ， 则 当前 无 需 阅 读 
的 垃圾 邮件 已 经 正确 地 划分 数据 分 类 ， 无 需 进 一 步 对 数据 集 进行 分 
割 。 如 采 数 据 子 集 内 的 数据 不 属于 同一 类 型 ， 则 需要 重复 划分 数据 子 
集 的 过 程 。 如 何 划 分 数据 子 集 的 算法 和 划分 原始 数据 集 的 方法 相同 ， 
直到 所 有 上 共有 相同 类 型 的 数据 均 在 一 个 数据 子 集 内 。 


创建 分 支 的 伪 代 码 函 数 createBranch() 如 下 所 示 : 


检测 数据 集中 的 每 个 子 项 是 否 属于 同一 分 类 : 


If so return 类 标签 ; 


Else 


寻找 划分 数据 集 的 最 好 特征 


划分 数据 集 


for 每 个 划分 的 


调用 函数 createBranch 并 增加 返回 结果 到 分 支 节点 中 


return 分 支 节点 


上 面 的 伪 代 码 createBranch 是 一 个 递归 函数 ， 在 倒数 第 二 行 直接 调用 
了 它 自 己 。 后 面 我 们 将 把 上 面 的 伪 代 码 转换 为 Python 代码 ， 这 里 我 们 需 
要 进一步 了 解 算法 是 如 何 划 分 数据 集 的 。 


决策 树 的 一 般 流程 


1. 收集 数据 : 可 以 使 用 任何 方法 。 

a eee ee 
须 离散 化 。 

3. 分 析 数 据 : 可 以 使 用 任何 方法 ， 构 造 树 完成 之 后 ， 我 们 应 该 检查 
图 形 是 否 符合 预期 。 

4. 训 练 算法 : 构造 树 的 数据 结构 。 

5. 测试 算法 : 使 用 经 验 树 计算 错误 率 。 

6. 使 用 算法 : 此 步骤 可 以 适用 于 任何 监督 学 习 算 法 ， 而 使 用 决策 树 
可 以 更 好 地 理解 数据 的 内 在 含义 。 


一 些 决 策 树 算法 采用 二 分 法 划分 数据 ， 本 书 并 不 采用 这 种 方法 。 如 果 
依据 某 个 属性 划分 数据 将 会 产生 4 个 可 能 的 值 ， 我 们 将 把 数据 划分 成 四 
块 ， 并 创建 四 个 不 同 的 分 文 。 本 书 将 使 用 ID3 算 法 划分 数据 集 ， 该 算法 
处 理 如 何 划分 数据 集 ， 何 时 停止 划分 数据 集 (进一步 的 信息 可 以 参见 
http://en.wikipedia.org/wiki/ID3 algorithm ) 。 每 次 划分 数据 集 时 我 们 只 
选取 一 个 特征 属性 ， 如 果 训 练 集 中 存在 20 个 特征 ， 第 一 次 我 们 选择 哪 
个 特征 作为 划分 的 参考 属性 呢 ? 


表 3-1 的 数据 包含 5 个 海洋 动物 ， 特 征 包 括 : 不 浮 出 水 面 是 否 可 以 生存 ， 
以 及 十 否 有 脚 忠 。 我 们 可 以 将 这 些 动 物 分 成 两 类 ， 鱼 类 和 非 鱼 类 。 现 
在 我 们 想 要 决定 依据 第 一 个 特征 还 是 第 二 个 特征 划分 数据 。 在 回答 这 
个 问题 之 前 ， 我 们 必须 采用 量化 的 方法 判断 如 何 划 分 数据 。 下 一 小 市 
将 详细 讨论 这 个 问题 。 


表 3-1 海洋 生物 数据 


不 浮 出 水 面 是否 可 以 生存 “是否 有 脚 中 。 属于 鱼 类 


u A w N = 
Pi 
Pi 


3.1.1 信息 增益 


划分 数据 集 的 大 原则 是 : 将 无 序 的 数据 变 得 更 加 有 序 。 我 们 可 以 使 用 
多 种 方法 划分 数据 集 ， 但 是 每 种 方法 都 有 各 目的 优 缺 点 。 组 织 杂 乱 无 
章 数 据 的 一 种 方法 束 是 使 用 信息 论 度 量 信息 ， 信 息 论 是 量化 处 理 信息 
的 分 支 科 学 。 我 们 可 以 在 划分 数据 现 后 使 用 信息 论 量化 度量 信息 的 内 


A o 

在 划分 数据 集 之 前 之 后 信息 发 生 的 变化 称 为 信息 增益 ， 知 道 如 何 计 算 
信息 增益 ， 我 们 束 可 以 计算 每 个 特征 值 划 分 数据 集 获 得 的 信息 增益 ， 
获得 信息 增 花 最 高 的 特征 吏 是 最 好 的 选择 。 


在 可 以 评测 哪 种 数据 划分 方式 是 最 好 的 数据 划分 之 前 ， 我 们 必须 学 习 
如 何 计算 信息 增益 。 集 合 信息 的 度量 方式 称 为 香农 精 或 者 简称 为 精 ， 


UT 4 "E EST AZ RHE EK ° 
WH te BR 


3555 f Er TCI VA Ae MERHAR E 
p (IU EDAX a PER SS YUUT th eR 


“贝尔 实验 室 和 MIT 有 很 多 人 将 香农 和 爱 因 斯 坦 相提并论 ， 而 其 他 
人 则 认为 这 种 对 比 是 不 公平 的 一 -对 香农 是 不 公平 的 。”， 


1. 威廉 庞 德 斯 通 的 《财富 公式 : 击败 赌场 和 华尔街 的 不 为 人 知 的 科学 投注 系统 》( Fortune's Formula: The Untold Story of the Scientific Betting System that Beat the 


Casi- nos and Wall Street )[Hill and Wang, 2005] 第 15 页 


如 果 看 不 明白 什么 是 信息 增益 (information gain) UA (entropy) ， 
请 不 要 着 急 一 一 它们 自 诞 生 的 那 一 天 起 ， 就 注定 会 令 世 人 十 分 费解 。 
He eRe Ta Ata, ARS ERS UE AHI TNE, 
因为 大 家 都 不 知道 它 是 什么 意思 。 


炉 定 义 为 信息 的 期 望 值 ， 在 明晰 这 个 概念 之 前 ， 我 们 必须 知道 信息 的 
定义 。 如 果 每 分 类 的 事务 可 能 划分 在 多 个 分 类 之 中 ， 则 符号 x ,的 信息 


I(x) = -log; p(x;) 


其 中 p(x ) 是 选择 该 分 类 的 概率 。 


为 了 计算 粹 ， 我 们 需要 计算 所 有 类 别 所 有 可 能 值 包 含 的 信息 期 望 值 ， 
通过 下 面 的 公式 得 到 |: 


H = -9 P(x% )log, p(x,) 


FARIZ RES FH Pythonit fa RU, GU Ntrees.pyH) xc 
件 ， 将 程序 清单 3-1 的 代码 内 容 录 入 到 trees.py 文 件 中 ， 此 代码 的 功能 是 
计算 给 定数 据 集 的 炉 。 


程序 清单 3-1 计算 给 定数 据 集 的 香农 炳 


from math import log 


def calcShannonEnt(dataSet): 


numEntries = len(dataSet) 


labelCounts = {} 


#0 (以 下 五 行 ) 为 所 有 可 能 分 类 创建 字典 


for featVec in dataset: 


currentLabel - featVec[-1] 


if currentLabel not in labelCounts.keys(): 


labelCounts[currentLabel] = 0 


labelCounts[currentLabel] += 1 


shannonEnt - 0.0 


for key in labelCounts: 


prob = float(labelCounts[key])/numEntries 


80 以 2 为 底 求 对 数 


shannonEnt -= prob * log(prob,2) 


return shannonEnt 


程序 清单 3-1 的 代码 非常 简单 。 首 先 ， 计 算数 据 集 中 实例 的 总 数 。 我 们 
也 可 以 在 需要 时 再 计算 这 个 值 ， 但 是 由 于 代码 中 多 次 用 到 这 个 值 ， 为 
了 提高 代码 效率 ， 我 们 显 式 地 声明 一 个 变量 保存 实例 总 数 。 然 后 ， 创 
建 一 个 数据 字典 ， 它 的 键 值 是 最 后 一 列 的 数值 @。 如 有 果 当 前 键 值 不 存 
在 ， 则 扩展 字典 并 将 当前 键 值 加 入 字典 。 每 个 键 值 都 记录 了 当前 类 别 
出 现 的 次 数 。 最 后 ， 使 用 所 有 类 标签 的 发 生 频 率 计算 类 别 出 现 的 概 
率 。 我 们 将 用 这 个 概率 计算 香农 烂 包 ， 统 计 所 有 类 标签 发 生 的 次 数 。 
下 面 我 们 看 看 如 何 使 用 炉 划 分 数据 集 。 


在 trees.py 文 件 中 ， 我 们 可 以 利用 createDataset() 函数 得 到 表 3-1 所 示 
的 简单 鱼 鉴定 数据 集 ， 你 可 以 输入 目 己 的 createDataSet() 函数 : 


def createDataSet(): 


dataSet - [[1, 1, 'yes'], 


[1, 1, 'yes'], 


[1, 0, 'no'], 


[0, 1, 'no'], 


[0, 1, 'no']] 


labels = ['no surfacing', 'flippers'] 


return dataSet, labels 


在 Python 命令 提示 符 下 输入 下 列 命令 : 
>>> reload(trees.py) 


>>> myDat,labels-trees.createDataSet() 


>>> myDat 
[[1, 1, 'yes'], [1, 1, 'yes'], [1, ©, 'no'], [O, 1, 'no'], [9, 1, 'no']] 
>>> trees.calcShannonEnt(myDat) 
0.97095059445466858 
ibs, WURRSERBANCUSUUBR E, KATT DEBS PISOS EHI AT 


AR, MEREM AEREE = T 45 maybe 的 分 类 ， 测 
VUBIB 2E TD: 


>>> myDat[0][-1]='maybe' 


>>> myDat 


[[1, 1, 'maybe'], [1, 1, 'yes'], [1, 0, 'no'], [0, 1, 'no'], [9, 1, 'no']] 


>>> trees.calcShannonEnt(myDat ) 


1.3709505944546687 


SE Za, PATA CAPR ERR A BS HJ 73 TAE 23 AER , 
下 一 市 我 们 将 具体 学 习 如 何 划分 数据 集 以 及 如 何 度 量 信 息 增 益 。 

男 一 个 度量 集合 无 序 程度 的 方法 是 基尼 不 纯度 : (Giniimpurity) ， 简 
单 地 说 就 是 从 一 个 数据 集中 随机 选取 子 项 ， 度 量 其 被 错误 分 类 到 其 他 
分 组 里 的 概率 。 本 书 不 采用 基尼 不 纯度 方法 ， 这 里 就 不 再 做 进一步 的 
介绍 。 下 面 我 们 将 学 习 如 何 划 分 数据 集 ， 并 创建 决策 树 。 


2. 要 了 解 更 多 信息 ， 请 参考 Pan-Ning Tan, Vipin Kumar and Michael Steinbach , Introduction to Data Mining . Pearson Education (Addison-Wesley, 2005), 158. 


3.1.2 ”划分 数据 集 


EHRM TA EE SRA ICP REE, DRRR [nu eM E 

fa, Om BOER, EERDER, MEA 33 Bile 

否 正 确 地 划分 了 数据 集 。 我 们 将 对 每 个 特征 划分 数据 集 的 结果 计算 一 

次 信息 箭 ， 人 然后 判断 按照 哪个 特征 划分 数据 集 是 最 好 的 划分 方式 。 想 

象 一 个 分 布 在 二 维 空 间 的 数据 散 点 图 ， 需 要 在 数据 之 间 划 条 线 ， 将 它 

D m 我 们 应 该 按照 x 轴 还 是 y 轴 划 线 呢 ? BEAT VU 
S 谷 o 


要 划分 数据 集 ， 打 开 文 本 编辑 器 ， 在 trees.py 文 件 中 输入 下 列 的 代码 : 
程序 清单 3-2 ”按照 给 定 特征 划分 数据 集 


def splitDataSet(dataSet, axis, value): 


#0 fil 


= 


建新 的 1ist 对 象 


retDataSet = [] 


for featVec in dataset: 


if featVec[axis] -- value: 


#@ (以 下 三 行 ) 抽取 


reducedFeatVec = featVec[:axis] 
reducedFeatVec.extend(featVec[axis-*1:]) 
retDataSet.append(reducedFeatVec) 
return retDataSet 
程序 清单 3-2 的 代码 使 用 了 三 个 输入 参数 : 待 划分 的 数据 集 、 划 分 数据 
集 的 特征 、 需 要 返回 的 特征 的 值 。 需 要 注意 的 是 ，Python 语 言 不 用 考虑 
内 存 分 配 问 题 。Python 语 言 在 国 数 中 传递 的 是 列表 的 引用 ， 在 函数 内 部 


对 列表 对 象 的 修改 ， 将 会 影响 该 列表 对 象 的 整个 生存 周期 。 为 了 消除 
这 个 不 展 影响 ， 我 们 需要 在 函数 的 开始 声明 一 个 新 列表 对 象 。 因为 该 


函数 代码 在 同一 数据 集 上 被 调用 多 次 ， 为 了 不 修改 原始 数据 集 ， 创 建 
一 个 新 的 列表 对 象 @@。 数 据 集 这 个 列表 中 的 各 个 元 素 也 是 列表 ， 我 们 
要 遍历 数据 集中 的 每 个 元 素 ， 一 旦 发 现 符 合 要 求 的 值 ， 则 将 其 添加 到 
新 创建 的 列表 中 。 在 if 语句 中 ， 程 序 将 符合 特征 的 数据 抽取 出 来 @。 
后 面 讲 述 得 更 向 单 ， 这 里 我 们 可 以 这 样 理解 这 段 代 码 : 当 我 们 按照 某 
个 特征 划分 数据 集 时 ， 就 需要 将 所 有 符合 要 求 的 元 素 抽取 出 来 。 代 码 
中 使 用 了 了 Python 语言 list 类 型 目 带 的 extend() 和 append( ) 方法 。 这 两 个 
A posee IDE dd 征 完 
ep NBI p 


假定 存在 两 个 列表 ，a 和 Pb: 


>>> 8-[1,2,3] 
>>> b=[4,5,6] 
>>> a.append(b) 
>>> a 


[1, 2, 3, [4, 5, 61] 


如 果 执 行 a.append(b) ， 则 列表 得 到 了 第 四 个 元 素 ， 而 且 第 四 个 元 素 也 
是 一 个 列表 。 然 而 如 果 使 用 extend 方法 : 


»»» a-[1,2,3] 
>>> a.extend(b) 
>>> a 


[1, 2, 3, 4, 5, 6] 


则 得 到 一 个 包含 a 和 b 所 有 元 素 的 列表 。 


34i] 8] EAE BU A f REI GS EUER Splitbataset() 。 首 先 还 
是 要 将 程序 清单 3.2 的 代码 增加 到 trees.py 文 件 中 ， 然 后 在 Python 命令 提 
示 符 内 输入 下 述 命令 : 


>>> reload(trees) 

«module 'trees' from 'trees.pyc'> 

>>> myDat,labels-trees.createDataSet() 

>>> myDat 

[[1, 1, 'yes'], [1, 1, 'yes'], [1, ©, 'no'], [0, 1, 'no'], [0, 1, 'no']] 
>>> trees.splitDataSet(myDat,0,1) [[1, 'yes'], [1, 'yes'], [0, 'no']] 


>>> trees.splitDataSet(myDat,0,0) [[1, 'no'], [1, 'no']] 
Te PORE PEOR EET ERSTE. (BENT AEN Isplitbataset() K 
BX, PRB EPAPER TSK o HTT RS Bl LAUREL A) CDS SS 
是 最 好 的 数据 组 织 方式 。 
打开 文本 编辑 器 ， 在 trees.py 文 件 中 输入 下 面 的 程序 代码 。 
程序 清单 3-3 ”选择 最 好 的 数据 集 划分 方式 


def chooseBestFeatureToSplit(dataSet): 


numFeatures - len(dataSet[0]) - 1 


baseEntropy = calcShannonEnt(dataSet) 


bestInfoGain - 0.0; bestFeature - -1 


for i in range(numFeatures): 


#@ (以 下 两 行 ) 创建 唯一 的 分 类 标签 列表 


featList = [example[i] for example in dataSet] 


uniqueVals = set(featList) 


newEntropy - 0.0 


#@ (以 下 五 行 ) SERO I fa s 


for value in uniqueVals: 


subDataSet - splitDataSet(dataSet, i, value) 


prob = len(subDataSet)/float(len(dataSet)) 


newEntropy += prob * calcShannonEnt(subDataSet ) 


infoGain - baseEntropy - newEntropy 


if (infoGain » bestInfoGain): 


k 


se ”计算 最 好 的 信息 增益 


BI 


bestInfoGain = infoGain 
bestFeature = i 


return bestFeature 


程序 清单 3-3 给 出 了 函数 chooseBestFeatureToSplit() 的 完整 代码 ， 该 
函数 实现 选取 特征 ， 划 分 数据 集 ， 计 算得 出 最 好 的 划分 数据 集 的 特 

{E ° ÉpZchooseBestFeatureTosplit() 使 用 了 程序 清单 3-1 和 3-2 中 的 画 
数 。 在 函数 中 调用 的 数据 需要 满足 一 定 的 要 求 : 第 一 个 要 求 是 ， 数 据 
必须 是 一 种 由 列表 元 素 组 成 的 列表 ， 而 且 所 有 的 列表 元 素 都 要 具有 相 
同 的 数据 长 度 ， 第 二 个 要 求 是 ， 数 据 的 最 后 一 列 或 者 每 个 实例 的 最 后 
一 个 元 素 是 当前 实例 的 类 别 标 答 。 数 据 集 一 旦 满足 上 述 要 求 ， 我 们 丈 
可 以 在 函数 的 第 一 行 判定 当前 数据 集 包 含 多 少 特 征 属性 。 我 们 无 需 限 


Sr ee ee UM 
未 计算 。 


在 开始 划分 数据 集 之 前 ， 程 序 清单 3-3 的 第 3 行 代 码 计算 了 整个 数据 集 的 
原始 香农 习 ， 我 们 保存 最 初 的 无 序 度量 值 ， 用 于 与 划分 完 之 后 的 数据 
集 计 算 的 粹 值 进行 比较 。 第 1 个 for 循环 遍历 数据 集中 的 所 有 特征 。 使 
用 列表 推导 (List Comprehension) 来 创建 新 的 列表 ， 将 数据 集中 所 有 
第 i 个 特征 值 或 者 所 有 可 能 存在 的 值 写 入 这 个 新 列表 中 @。 人 然后 使 用 
Python 语言 原生 的 集合 (set) 数据 类 型 。 集 合 数据 类 型 与 列表 类 型 相 
似 ， 不 同 之 处 仅 在 于 集合 类 型 中 的 每 个 值 互 不 相同 。 从 列表 中 创建 集 
合 是 Python 语 言 得 到 列表 中 唯一 元 素 值 的 最 快 方法 。 


所 历 当 前 特征 中 的 所 有 唯一 属性 值 ， 对 每 个 特征 划分 一 次 数据 集 @， 
然后 计算 数据 集 的 新 炉 值 ， 并 对 所 有 唯一 特征 值得 到 的 入 求 和 。 信 息 
增益 是 业 的 减少 或 者 是 数据 无 序 度 的 减少 ， 大 家 肯定 对 于 将 焙 用 于 度 
量 数 据 无 序 度 的 减少 更 容易 理解 。 最 后 ， 比 较 所 有 特征 中 的 信息 增 
益 ， 返 回 最 好 特征 划分 的 索引 值 上 日。 


现在 我 们 可 以 测试 上 面 代码 的 实际 输出 结 末 ， 首 先 将 程序 清单 3-3 的 内 
容 输入 到 文件 trees.py 中 ， 然 后 在 Python 命令 提示 符 下 输入 下 列 命令 : 


>>> reload(trees) 


«module 'trees' from 'trees.py'> 


>>> myDat,labels-trees.createDataSet() 


>>> trees.chooseBestFeatureToSplit(myDat) 


0 


>>> myDat 


[[1, 1, 'yes'], Dt; 1, “yes To [1, ©, 'no'], [0, 1, 'no'], [0, 1, 'no']] 


代码 运行 结果 告诉 我 们 ， 第 0 个 特征 是 最 好 的 用 于 划分 数据 集 的 特征 。 
结 采 是 否 正确 呢 ? 这 个 结果 又 有 什么 实际 意义 呢 ? 数据 集中 的 数据 来 


源 于 表 3-1， 让 我 们 回头 再 看 一 下 表 1-1 或 者 变量 mypat 中 的 数据 。 如 采 
我 们 按照 第 一 个 特征 属性 划分 数据 ， 也 丈 是 说 第 一 个 特征 是 1 的 放 在 一 
个 组 ， 第 一 个 特征 是 0 的 放 在 另 一 个 组 ， 数 据 一 致 性 如 何 ? 按照 上 述 的 
方法 划分 数据 集 ， 第 一 个 特征 为 1 的 海洋 生物 分 组 将 有 两 个 属于 鱼 类 ， 
一 个 属于 非 鱼 类 ; 另 一 个 分 组 则 全 部 属于 非 鱼 类 。 如 采 按 照 第 二 个 特 
征 分 组 ， 结 有 末 又 是 怎么 样 呢 ? 第 一 个 海洋 动物 分 组 将 有 两 个 属于 鱼 

类 ， 两 个 属于 非 鱼 类 ， 男 一 个 分 组 则 只 有 一 个 非 鱼 类 。 第 一 种 划分 很 
好 地 处 理 了 相关 数据 。 如 果 不 相 信和 目测 结果 ， 读 者 可 以 使 用 程序 清单 3- 
1 的 calcshannonEntropy() 函数 测试 不 同 特征 分 组 的 输出 结果 o 


本 万 我 们 学 习 了 如 何 度量 数据 集 的 信息 精 ， 如 何 有 效 地 划分 数据 集 ， 
下 一 元 我 们 将 介绍 如 何 将 这 些 函 数 功能 放 在 一 起 ， 构 建 决策 树 。 


3.1.3 ”递归 构建 决策 树 


目前 我 们 已 经 学 习 了 从 数据 集 构造 决策 树 算法 所 需要 的 子 功能 模块 ， 
其 工作 原理 如 下 : 得 到 原始 数据 集 ， 然 后 基于 最 好 的 属性 值 划分 数据 
集 ， 由 于 特征 值 可 能 多 于 两 个 ， 因 此 可 能 存在 大 于 两 个 分 文 的 数据 集 
划分 。 第 一 次 划分 之 后 ， 数 据 将 被 回 下 传递 到 树 分 支 的 下 一 个 广 扩 ， 
在 这 个 市 点 上 ， 我 们 可 以 再 次 划分 数据 。 因 此 我 们 可 以 采用 递归 的 原 
则 处 理 数 据 集 。 


递归 结束 的 条 件 是 : 程序 志 历 完 所 有 划分 数据 集 的 属性 ， 或 者 每 个 分 
文 下 的 所 有 实例 都 具有 相同 的 分 类 。 如 果 所 有 实例 具有 相同 的 分 类 ， 
则 得 到 一 个 叶子 市 点 或 者 终止 块 。 任 何 到 达 叶 子 广 扩 的 数据 必然 属于 
叶子 市 太 的 分 类 ， 参 见 图 3-2 所 示 。 


No surfacing Flippers? Fish? 


1 Yes Yes Yes 
2 Yes Yes Yes 
3 Yes No No 
4 No Yes No 
5 No Yes No 


d. Yes Yes 
No Surfacing? 2. Yes Yes 
3. No No 


No Surfacing? Fish? 
4, Yes No 
9, Yes No 


Flippers? 


图 3-2 ”划分 数据 集 时 的 数据 路 径 


第 一 个 结束 条 件 使 得 算法 可 以 终止 ,我 们 甚至 可 以 设置 算法 可 以 划分 
的 最 大 分 组 数目 。 后 续 章 放 还 会 介绍 其 他 决策 树 算法 ， 如 C4.5 和 
CART， 这 些 算 法 在 运行 时 并 不 总 是 在 每 次 划分 分 组 时 都 会 消耗 特征 。 
由 于 特征 数目 并 不 是 在 每 次 划分 数据 分 组 时 都 减少 ， 因 此 这 些 算法 在 
实际 使 用 时 可 能 引起 一 定 的 问题 。 目 前 我 们 并 不 需要 考虑 这 个 问题 ， 
只 需要 在 算法 开始 运行 前 计算 列 的 数目 ， 碍 看 算法 是 否 使 用 了 所 有 属 
性 即 可 。 如 条 数据 集 已 经 处 理 了 所 有 属性 ， 但 是 类 标签 依然 不 是 唯一 
的 ， 此 时 我 们 需要 决定 如 何 定义 该 叶子 市 点 ， 在 这 种 情况 下 ， 我 们 通 
常会 采用 多 数 表决 的 方法 决定 该 叶子 方 点 的 分 类 。 


打开 文本 编辑 器 ， 在 增加 下 面 的 函数 之 前 ， 在 trees.py 文 件 顶部 增加 一 
行 代码 : import operator ， 然 后 添加 下 面 的 代码 到 trees.py 文 件 中 : 


def majoritycnt(classList) : 
classCount={} 
for vote in classList: 
if vote not in classCount.keys(): classCount[vote] = 0 
classCount[vote] += 1 
sortedClassCount=sorted(classCount .iteritems(), 
key-operator.itemgetter(1), reverse=True) 
return sortedClassCount [0] [0] 
上 面 的 代码 与 第 2 章 classifyg 部 分 的 投票 表决 代码 非常 类 似 ， 该 函数 
使 用 分 类 名 称 的 列表 ， 然 后 创建 键 值 为 classList 中 唯一 值 的 数据 字 
典 ， 字 典 对 象 存 储 了 classList 中 每 个 类 标签 出 现 的 频率 ， 最 后 利用 
operator 操 作 键 值 排序 字典 ， 并 返回 出 现 次 数 最 多 的 分 类 名 称 。 
在 文本 编辑 器 中 打开 trees.py 文 件 ， 添 加 下 面 的 程序 代码 。 
程序 清单 3-4 ”创建 树 的 函数 代码 


def createTree(dataSet, labels): 


classList = [example[-1] for example in dataSet] 


#@ (以 下 两 行 ) 类 别 完 全 相同 则 停止 继续 划分 


if classList.count(classList[0]) == len(classList): 


return classList[0] 


#@ (以 下 两 行 ) 遍历 完 所 有 特征 时 返回 出 现 次 数 最 多 的 


if len(dataSet[0]) == 1: 


return majorityCnt(classList) 


bestFeat = chooseBestFeatureToSplit(dataSet) 


bestFeatLabel - labels[bestFeat] 


myTree = {bestFeatLabel: {}} 


HO 得 到 列表 包含 的 所 明 属 


— 


生 值 


del(labels[bestFeat]) 
featValues = [example[bestFeat] for example in dataSet] 
uniqueVals - set(featValues) 
for value in uniqueVals: 
subLabels - labels[:] 
myTree[bestFeatLabel][value] = createTree(splitDataSet 
(dataSet, bestFeat, value),subLabels) 


return myTree 


程序 清单 3-4 的 代码 使 用 两 个 输入 参数 ， 数据 集 和 标签 列表 。 标 签 列表 
包含 了 数据 集中 所 有 特征 的 标签 ， 算 法 本 身 并 不 需要 这 个 变量 ， 但 是 
为 了 给 出 数据 明确 的 含义 ， 我 们 将 它 作为 一 个 输入 参数 提供。 此 外 ， 
前 面 提 到 的 对 数据 集 的 要 求 这 里 依然 需要 满足 。 上 述 代码 首先 创建 了 
名 为 classList 的 列表 变量 ， 其 中 包含 了 数据 集 的 所 有 类 标签 。 递 归 函 
数 的 第 一 个 停止 条 件 是 所 有 的 类 标签 完全 相同 ， 则 直接 返回 该 类 标签 
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据 集 划 分 成 仅 包 含 唯 一 类 别 的 分 组 @。 由 于 第 二 个 条 件 无 法 简单 地 返 
回 唯 一 的 类 标签 ， 这 里 使 用 程序 清单 3-3 的 函数 挑选 出 现 次 数 最 多 的 类 
别 作为 返回 值 。 


下 一 步 程序 开始 创建 树 ， 这 里 使 用 Python 语言 的 字典 类 型 存储 树 的 信 
已， 当然 也 可 以 声明 特殊 的 数据 类 型 存储 树 ， 但 是 这 里 完全 没有 必 

有 要。 字典 变量 myTree 存储 了 树 的 所 有 信息 ， 这 对 于 其 后 绘制 树 形 图 非 
党 重要 。 当 前 数据 集 选 取 的 最 好 特征 存储 在 变量 bestFeat 中 ， 得 到 列 
表 包 含 的 所 有 属性 值 @。 这 部 分 代码 与 程序 清单 3-3 中 的 部 分 代码 类 
似 ， 这 里 就 不 再 进一步 解释 了 。 


最 后 代码 所 历 当 前 选择 特征 包含 的 所 有 属性 值 ， 在 每 个 数据 集 划 分 上 
递归 调用 函数 createTree() ， 得 到 的 返回 值 将 被 插入 到 字典 变量 
myTree 中 ， 因 此 函数 终止 执行 时 ， 字 典 中 将 会 航 套 很 多 代表 叶子 节点 
信息 的 字典 数据 。 在 解释 这 个 藤 套 数据 之 前 ， 我 们 先 看 一 下 循环 的 第 
一 行 subLabels = labels[:] ， 这 行 代 码 复制 了 类 标签 ， 并 将 其 存储 在 
新 列表 变量 subLabels Fo Z PTELURETL, 2A AEPythonié A P KA 
参数 是 列表 类 型 时 ， 参 数 是 按照 引用 方式 传递 的 。 为 了 保证 每 次 调用 
函数 createTree() 时 不 改变 原始 列表 的 内 容 ， 使 用 新 变量 subLabels fV 
JM PIE © 


现在 我 们 可 以 测试 上 面 代码 的 实际 输出 结 采 ， 首 先 将 程序 清单 3-4 的 内 
容 输入 到 文件 trees.py 中 ， 然 后 在 Python 命令 提示 符 下 输入 下 列 命令 : 


>>> reload(trees) 


«module 'trees' from 'trees.pyc'> 


>>> myDat,labels-trees.createDataSet() 


>>> myTree = trees.createTree(myDat, labels) 


>>> myTree 


{'no surfacing': (0: 'no', 1: ('flippers': (0: 'no', 1: 'yes'}}}} 


变量 myTree BE TRR BEI MA, 9 
一 个 关键 字 no surfacing 是 第 一 个 划分 数据 集 的 特征 名 称 ， 该 关键 字 
的 值 也 是 另 一 个 数据 字典 。 第 二 个 关键 字 是 no surfacing 特征 划分 的 
数据 集 ， 这 些 关键 字 的 值 是 no surfacing 节点 的 子 节点 。 这 些 值 可 能 
是 类 标签 ， 也 可 能 是 另 一 个 数据 字典 。 如 果 值 是 类 标签 ， 则 该 子 节 点 
是 叶子 节点 ; 如 果 值 是 另 一 个 数据 字典 ， 则 子 节点 是 一 个 判断 节点 ， 
这 种 格式 结构 不 断 重 复 就 构成 了 整 棵 树 。 本 节 的 例子 中 ， 这 棵 树 包含 
了 3 个 叶子 节点 以 及 2 个 判断 节点 。 


本 广 讲 述 了 如 何 正确 地 构造 树 ， 下 一 广 将 介绍 如 何 绘制 图 形 ， 方 便 我 
们 正确 理解 数据 信息 的 内 在 含义 。 


3.2 ”在 Python 中 使 用 Matplotlib 注 解 绘制 
树 形 图 


上 市 我 们 已 经 学 习 了 如 何 从 数据 集中 创建 树 ， 然 而 字典 的 表示 形式 非 
常 不 易于 理解 ， 而 且 直 接 绘 制图 形 也 比较 困难 。 本 市 我 们 将 使 用 
Matplotlib 库 创建 树 形 图 。 决 抹 树 的 主要 优点 束 是 直观 易于 理解 ， 如 果 
不 能 将 其 直观 地 显示 出 来 ， 就 无 法 发 挥 其 优势 。 虽 然 前 面 章节 我 们 使 
用 的 图 形 库 已 经 非常 强大 ， 但 是 Python 并 没有 提供 绘制 树 的 工具 ， 因 此 
我 们 必须 目 己 绘制 树 形 图 。 本 矶 我 们 将 学 习 如 何 编 写 代码 绘制 如 图 3-3 
所 示 的 决策 树 。 


四 


图 3-3 ”决策 树 的 范例 
3.2.1 Matplotlib 注 解 


Matplotlibsett f — 138 LEannotations ， 非 常 有 用 ， 它 可 以 在 数据 
图 形 上 添加 文本 注释 。 注 解 通常 用 于 解释 数据 的 内 容 。 由 于 数据 上 面 
直接 存在 文本 描述 非常 丑陋， 因此 工具 内 和 骸 文 持 带 箭头 的 划 线 工具 ， 

使 得 我 们 可 以 在 其 他 恰当 的 地 方 指 癌 数据 位 置 ， 并 在 此 处 添加 描述 信 


已 ， 解 释 数 据 内 容 。 如 图 3-4 所 示 ， 在 坐标 (0.2, 0.1) 的 位 置 有 一 个 点 ， 
我 们 将 对 该 点 的 描述 信息 放 在 (0.35, 0.3) 的 位 置 ， 并 用 箭头 指向 数据 点 
(0.2, 0.1) ° 
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图 3-4 ”Matplotlib 注 解 示 例 
绘制 还 是 图 形 化 


为 什么 使 用 单词 “绘制 ”(plot) ? 为 什么 在 讨论 如 何在 图 形 上 显示 
数据 的 时 候 不 使 用 单词 “图 形 化 ”(graph) ? 这 里 存在 一 些 语 言 上 
的 差别 ， 英 语 单词 graph 在 某 些 学 科 中 具有 特定 的 含义 ， 如 在 应 用 
数学 中 ， 一 系列 由 边 连 接 在 一 起 的 对 象 或 者 世 点 称 为 图 。 帮 点 的 
任意 联系 都 可 以 通过 边 来 连接 。 在 计算 机 科学 中 ， 图 是 一 种 数据 
结构 ， 用 于 表示 数学 上 的 概念 。 好 在 汉语 并 不 存在 这 些 混 消 的 概 
a, IX (eA Ze IE A 。 


本 书 将 使 用 Matplotlib 的 注解 功能 绘制 树 形 图 ， 它 可 以 对 文字 着 色 并 提 
供 多 种 形状 以 供 选 择 ， 而 且 我 们 还 可 以 肥 转 箭头 ， 将 它 指 同文 本 框 而 


不 是 数据 点 。 打 开 文 本 编辑 器 ， 创 建 名 为 treePlotter.py 的 新 文件 ， 然 后 
输入 下 面 的 程序 代码 。 


程序 清单 3-5 ”使 用 文本 注解 绘制 树 节点 


import matplotlib.pyplot as plt 


#@ (以 下 三 行 ) 定义 文本 框 和 箭头 格式 


decisionNode = dict(boxstyle="Sawtooth", fc="0.8") 


leafNode = dict(boxstyle="round4", fc="0.8") 


arrow args = dict(arrowstyle="<-") 


#@ (以 下 两 行 ) 绘制 带 箭头 的 注解 


def plotNode(nodeTxt, centerPt, parentPt, nodeType): 


createPlot.axi.annotate(nodeTxt, xy-parentPt, 


xycoords='axes fraction', 


xytext=centerPt, textcoords='axes fraction', 


va="center", ha="center", bbox=nodeType, arrowprops=arrow_args) 


def createPlot(): 


fig = plt.figure(1, facecolor='white' ) 


fig.clf() 


reatePlot.ax1 = plt.subplot(111, frameon-False) 


plotNode(' 决 策 节点 '， (0.5, 0.1), (0.1, 0.5), decisionNode) 


plotNode(' 叶 节点 '，(0.8, 0.1), (0.3, 0.8), leafNode) 


plt.show() 


这 是 第 一 个 版 本 的 createPlot() AL, 与 例子 文件 中 的 createPlot () 
函数 有 些 不 同 ， 随 着 内 容 的 深入 ， 我 们 将 逐步 添加 缺失 的 代码 。 代 码 
定义 了 树 世 点 格式 的 常量 @@。 然 后 定义 plotNode() 函数 执行 了 实际 的 
绘图 功能 ， 该 函数 需要 一 个 绘图 区 ， 该 区 域 由 全 局 变量 createplot .ax1 
定义 。Python 语 言 中 所 有 的 变量 默认 都 是 全 局 有 效 的 ， 只 要 我 们 清楚 知 
道 当 前 代码 的 主要 功能 ， 并 不 会 引入 太 大 的 麻烦 。 最 后 定义 
createPlot() 函数 ， 它 是 这 段 代 码 的 核心 。 createPlot() KAA TEE 
建 了 一 个 新 图 形 并 清空 绘图 区 ， 然 后 在 绘图 区 上 绘制 两 个 代表 不 同类 
型 的 树 太 点 ， 后 面 我 们 将 用 这 两 个 太 点 绘制 树 形 图 。 


为 了 测试 上 面 代 码 的 实际 输出 结 有 末 ， 打 开 Python 命 令 提 示 符 ， 导 入 


treePlotter 模块 : 


>>> import treePlotter 


>>> treePlotter.createPlot() 


程序 的 输出 结果 如 图 3-5 所 示 ， 我 们 也 可 以 改变 函数 plotNode() @, WW 
察 图 中 x、y 位 置 如 何 变化 。 
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图 3-5 BAW plotNode 的 例子 
现在 我 们 已 经 掌握 了 如 何 绘制 树 节 点 ， 下 面 将 学 习 如 何 绘制 整 棵 树 。 
3.2.2 ”构造 注解 树 


绘制 一 棵 完整 的 树 需 要 一 些 技巧 。 我 们 虽然 有 x、y 坐标 ， 但 是 如 何 放 
置 所 有 的 树 节 点 却 是 个 问题 。 我 们 必须 知道 有 和 多少 个 叶 广 点 ， 以 便 可 
以 正确 确定 x 轴 的 长 度 ; 我 们 还 需要 知道 村 有 多 少 层 ， 以 便 可 以 正确 确 
Ey 轴 的 高 度 。 这 里 我 们 定义 两 个 新 函数 getNumLeafs() 和 
getTreeDepth() ， 来 获取 叶 节 点 的 数目 和 树 的 层 数 ， 参 见 程序 清单 3- 
6， 并 将 这 两 个 函数 添加 到 文件 treePlotterpy 中 。 


程序 清单 3-6 ”获取 叶 节 点 的 数目 和 树 的 层 数 


def getNumLeafs(myTree): 


M 
e 


numLeafs 


firstStr = myTree.keys()[0] 


secondDict = myTree[firstStr] 


for key in secondDict.keys(): 


#0 (AF f) 测试 节点 的 数据 类 型 是 否 为 字典 


if type(secondDict[key]).__name__=='dict': 


numLeafs += getNumLeafs(secondDict [key] ) 


else: numLeafs 4-1 


return numLeafs 


def getTreeDepth(myTree): 


I 
e 


maxDepth 


firstStr = myTree.keys()[0] 


secondDict = myTree[firststr] 


for key in secondDict.keys(): 


if type(secondDict[key]). name --'dict': 


thisDepth = 1 + getTreeDepth(secondDict [key] ) 


else: thisDepth = 1 


if thisDepth » maxDepth: maxDepth - thisDepth 


return maxDepth 


上 述 程 序 中 的 两 个 函数 具有 相同 的 结构 ， 后 面 我 们 也 将 使 用 到 这 两 个 
函数 。 这 里 使 用 的 数据 结构 说 明了 如 何在 Python 字典 类 型 中 存储 树 信 
已 。 第 一 个 关键 字 是 第 一 次 划分 数据 集 的 类 别 标签 ， 附 市 的 数值 表示 
子 方 点 的 取 值 。 从 第 一 个 关键 字 出 发 ， 我 们 可 以 遍历 整 棵 树 的 所 有 子 
节点 。 使 用 Python 提 供 的 type( ) 落 数 可 以 判断 子 节点 是 否 为 字典 类 型 
@@。 如 果子 节点 是 字典 类 型 ， 则 该 节点 也 是 一 个 判断 节点 ， 需 要 递归 
调用 getNumLeafs( ) 函数 。getNumLeafs() 函数 遍历 整 棵 树 ， 累 计 叶 子 
节 扣 的 个 数 ， 并 返回 该 数值 。 第 2 个 函数 getTreeDepth() IRH fi 
中 遇 到 判断 节点 的 个 数 。 该 函数 的 终止 条 件 是 叶子 节点 ， 一 旦 到 达 叶 
子 节 点 ， 则 从 递归 调用 中 返回 ， 并 将 计算 树 深度 的 变量 加 一 。 为 了 市 
省 大 家 的 上 时间， 函数 retrieveTree 输出 预先 存储 的 树 信 息 ， 避 免 了 每 
次 测试 代码 时 都 要 从 数据 中 创建 树 的 麻烦 。 


添加 下 面 的 代码 到 文件 treePlotter.py 中 : 


def retrieveTree(i): 


listOfTrees =[{'no surfacing': (0: 'no', 1: {'flippers': \ 


(0: 'no', 1: 'yes'}}}}, 


{'no surfacing': (0: 'no', 1: {'flippers': \ 


(0: {'head': {0: 'no', 1: 'yes'}}, 1: "no' 


] 


return listOfTrees[i] 


保存 文件 treePlotterpy， 在 Python 命令 提示 符 下 输入 下 列 命令 : 


>>> reload(treePlotter) 

«module 'treePlotter' from 'treePlotter.py'> 

>>> treePlotter.retrieveTree (1) 

{'no surfacing': (0: 'no', 1: {'flippers': (0: {'head': {0: 'no', 1: 
'yes' 33, 1: 'no'}}}}</pre> 

>>> myTree = treePlotter.retrieveTree (0) 


>>> treePlotter.getNumLeafs(myTree) 


>>> treePlotter.getTreeDepth(myTree) 


函数 retrieveTree() 主要 用 于 测试 ， 返回 预定 义 的 树 结构 。 上 述 命 令 
中 调用 getNumLeafs() 函数 返回 值 为 9， 等 于 树 0 的 叶子 节点 数 ; 调用 
getTreeDepths() 函数 也 能 够 正确 返回 树 的 层 数 。 


现在 我 们 可 以 将 前 面 学 到 的 方法 组 合 在 一 起 ， 绘 制 一 棵 完整 的 树 。 最 
终 的 结 末 如 图 3-6 所 示 ， 但 是 没有 x My 轴 标 等。 
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图 3-6 简单 数据 集 绘制 的 树 形 图 

打开 文本 编辑 器 ， 将 程序 清单 3-7 的 内 容 添 加 到 treePlotter.py 文 件 中 。 注 
意 ， 前 文 已 经 在 文件 中 定义 了 画 数 createPlot() ， 此 处 我 们 需要 更 新 
这 部 分 代码 。 

程序 清单 3-7 plotTree WA 


#0 (以 下 四 行 ) 在 父子 节点 间 填 充 文本 信息 


def plotMidText(cntrPt, parentPt, txtString): 


xMid = (parentPt[0]-cntrPt[0])/2.0 + cntrPt[0] 


yMid - 


(parentPt[1]-cntrPt[1])/2.0 + cntrPt[1] 


createPlot.axi.text(xMid, yMid, txtString, va="center", 
n=30) 


ha="center", rotatio 


def plotTree(myTree, parentPt, nodeTxt): 
#0 (以 下 


ifr) i 


S RUE 


numLeafs - 


getNumLeafs(myTree) 


depth - 


getTreeDepth(myTree) 


firststr 


myTree.keys()[0] 


cntrPt 
ree.yOff) 


(plotTree.xOff + (1.0 + float(numLeafs))/2.0/plotTree.totalW, plotT 


#0 Lund n 


ni 
Ls 


性 值 


plotMidText(cntrPt, parentPt, nodeTxt) 


plotNode(firstStr, cntrPt, parentPt, decisionNode) 


secondDict 


myTree[firstStr] 


#0 (以 下 


i 行 ) 减 小 y 偏 移 


plotTree.yOff = plotTree.yOff - 1.0/plotTree.totalD 


for key in secondDict.keys(): 


if type(secondDict[key]). name --'dict': 


plotTree(secondDict[key],cntrPt,str(key)) #recursion 
else: 
plotTree.xOff = plotTree.xOff + 1.0/plotTree.totalW 


plotNode(secondDict[key], (plotTree.xOff, plotTree.yOff),, cntrPt, leafN 
ode) 


plotMidText((plotTree.xOff, plotTree.yOff), cntrPt, str(key)) 


plotTree.yOff = plotTree.yOff + 1.0/plotTree.totalD 


def createPlot(inTree): 
fig = plt.figure(1, facecolor='white' ) 
fig.clf() 
axprops = dict(xticks=[], yticks=[]) 
createPlot.axi = plt.subplot(111, frameon-False, **axprops) 
plotTree.totalw = float(getNumLeafs(inTree) ) 
plotTree.totalD = float(getTreeDepth(inTree) ) 
plotTree.xOff = -0.5/plotTree.totalW; plotTree.yOff = 1.0; 
plotTree(inTree, (0.5,1.0), '') 


plt.show() 


函数 createPlot() 是 我 们 使 用 的 主 函 数 ， 它 调 用 了 plotTree() ; 函数 
plotrree 又 依次 调用 了 前 面 介 绍 的 函数 和 plotMidText() 。 绘 制 树 形 图 


的 很 多 工作 都 是 在 函数 plotTree() 中 完成 的 ， 函 数 plotTree() 首先 计 
算 树 的 宽 和 高 @。 全 局 变量 plotTree.totalw 存储 树 的 宽度 ， 全 局 变量 
plotTree.totalD 存储 树 的 深度 ， 我 们 使 用 这 两 个 变量 计算 树 节点 的 撑 
放 人 位置， 这 样 可 以 将 树 绘制 在 水 平方 向 和 垂直 方 癌 的 中 心 位 置 。 与 程 
序 清单 3-6 中 的 函数 getNumLeafs() 和 getTreeDepth() ŽU, PRAY 
plotTree() 也 是 个 递归 函数 。 树 的 宽度 用 于 计算 放置 判断 万 点 的 位 
置 ， 主 要 的 计算 原则 是 将 它 放 在 所 有 叶子 节点 的 中 间 ， 而 不 仅仅 是 它 
子 广 点 的 中 间 。 同 时 我 们 使 用 两 个 全 局 变量 plotTree.xoff 和 
plotrree.yoff 退 踪 已 经 绘制 的 节点 位 置 ， 以 及 放置 下 一 个 节点 的 恰当 
位 置 。 另 一 个 需要 说 明 的 问题 是 ， 绘 制图 形 的 x 轴 有 效 范围 是 0.0 到 
1.0, y 轴 有 效 范 围 也 是 0.0~1.0。 为 了 方便 起 见 ， 图 3-6 给 出 具体 坐标 
值 ， 实 际 输出 的 图 形 中 并 没有 xy 坐标 。 通 过 计算 树 包含 的 所 有 叶子 方 
点 数 ， 划 分 图 形 的 宽度 ， 从 而 计算 得 到 当前 节点 的 中 心 位 置 ， 也 就 是 
说 ， 我 们 按照 叶子 世上 点 的 数目 将 x 轴 划 分 为 若干 部 分 。 按 照 图 形 比 例 绘 
制 树 形 图 的 最 大 好 处 是 无 需 关 心 实际 输 出 图 形 的 大 小 ， 一 旦 图 形 大 小 
发 生 了 变化 ， 函 数 会 自动 按照 图 形 大 小 重新 绘制 。 如 果 以 像素 为 单位 
绘制 图 形 ， 则 缩放 图 形 残 不 是 一 件 简单 的 工作 。 


接着 ， 绘 出 子 节 点 具有 的 特征 值 ， 或 者 沿 此 分 支 向 下 的 数据 实例 必须 
具有 的 特征 值 @。 使 用 函数 plotMidText() 计算 父 节 点 和 子 节点 的 中 间 
位 置 ， 并 在 此 处 添加 简单 的 文本 标签 信息 @ 。 


然后 ， 按 比 例 减少 全 局 变量 plotTree .yoff , 并 标注 此 处 将 要 绘制 子 世 
点 @， 这 些 节 点 既 可 以 是 叶子 节点 也 可 以 是 判断 节点 ， 此 处 需要 只 保 
存 绘制 图 形 的 轨迹 。 因 为 我 们 是 自 顶 同 下 绘制 图 形 ， 因 此 需要 依次 弟 
减 y 坐标 值 ， 而 不 是 递增 y 坐标 值 。 然 后 程序 采用 函数 getNumLeafs() 和 
getTreeDepth() 以 相同 的 方式 递归 人 遍历 整 棵 树 ， 如 果 节 点 是 叶子 节点 
则 在 图 形 上 画 出 叶子 市 点 ， 如 果 不 是 叶子 节点 则 递归 调用 plotTree() 
函数 。 在 绘制 了 所 有 子 节 点 之 后 ， 增 加 全 局 变量 Y 的 偏 移 。 


程序 清单 3-7 的 最 后 一 个 函数 是 createPlot() ， 它 创建 绘图 区 ， 计 算 树 
形 图 的 全 局 尺寸 ， 并 调用 递归 函数 plotTree()。 


现在 我 们 可 以 验证 一 下 实际 的 输出 效果 。 添 加 上 述 代 码 到 文件 
treePlotter py 之 后 ， 在 Python 命令 提示 符 下 输入 下 列 命令 : 


>>> reload(treePlotter) 


«module 'treePlotter' from 'treePlotter.pyc'> 


>>> myTree-treePlotter.retrieveTree (0) 


>>> treePlotter.createPlot(myTree) 


输出 效果 如 图 3-6 所 示 ， 但 是 没有 坐标 轴 标 签 。 接 着 按照 如 下 命令 变更 
字典 ， 重 新 绘制 树 形 图 : 


>>> myTree['no surfacing'][3]='maybe' 

>>> myTree 

{'no surfacing ': (0: 'no', 1: {'flippers': {0: 'no', 1: 'yes'}}, 3: 
"maybe'}} 


>>> treePlotter.createPlot(myTree) 
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中 随意 添加 一 些 数据 ， 并 重新 绘制 树 形 图 观察 输出 结果 的 变化 。 


到 目前 为 止 ， 我 们 已 经 学 习 了 如 何 构 造 决 俩 树 以 及 绘制 树 形 图 的 方 
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图 3-7 ”超过 两 个 分 支 的 树 形 图 


3.3 ”测试 和 存储 分 类 妖 


本 书 第 一 部 分 主要 讲解 机 器 学 习 的 分 类 算法 ， 然 而 到 目前 为 止 ， 本 章 
学 习 的 主要 内 容 是 如 何 从 原始 数据 集中 创建 决策 树 ， 并 使 用 Python 画 数 


库 绘 制 树 形 图 ， 方 便 我 们 了 解数 据 的 真实 含义 ， 下 面 我 们 将 把 重点 转 
移 到 如 何 利 用 决策 树 执行 数据 分 类 上 。 


本 节 我 们 将 使 用 决策 树 构 建 分 类 器 ， 以 及 实际 应 用 中 如 何 存 储 分 类 
ano BNET RSA LIRR RAE, Ike ee ay 
以 正确 预测 出 患者 应 该 使 用 的 隐形 眼镜 类 型 。 

3.3.1 测试 算法 : 使 用 决策 树 执行 分 类 

依靠 训练 数据 构造 了 决策 树 之 后 ， 我 们 可 以 将 它 用 于 实际 数据 的 分 
类 。 在 执行 数据 分 类 上 时， 需要 决策 树 以 及 用 于 构造 树 的 标签 向 量 。 然 
后 ， 程 序 比 较 测试 数据 与 决策 树 上 的 数值 ， 弟 归 执 行 该 过 程 直 到 进入 
叶子 节点 ;最 后 将 测试 数据 定义 为 叶子 节点 所 属 的 类 型 。 


为 了 验证 算法 的 实际 效果 ， 打 开 文 本 编辑 器 ， 将 程序 清单 3-8 包 含 的 代 
码 添 加 到 文件 trees.py 中 。 


程序 清单 3-8 ”使 用 决策 树 的 分 类 画 数 


def classify(inputTree,featLabels,testVec): 
firstStr = inputTree.keys()[0] 


secondDict = inputTree[firstStr] 


#@ 将 标签 字符 串 转换 为 索引 


featIndex = featLabels.index(firstStr) 


for key in secondDict.keys(): 


if testVec[featIndex] -- key: 


if type(secondDict[key]). name --z'dict': 


classLabel = classify(secondDict [key], featLabels, testVec) 


else: classLabel - secondDict[key] 


return classLabel 


程序 清单 3-8 定 义 的 函数 也 是 一 个 递归 函数 ， 在 存储 带 有 特征 的 数据 会 
面临 一 个 问题 : 程序 无 法 确定 特征 在 数据 集中 的 位 置 ， 例 如 前 面 例子 
的 第 一 个 用 于 划分 数据 集 的 特征 是 no surfacing 属性 ， 但 是 在 实际 数 
据 集 中 该 属性 存储 在 哪个 位 置 ? 是 第 一 个 属性 还 是 第 二 个 属性 ? 特征 
标签 列表 将 帮助 程序 处 理 这 个 问题 。 使 用 index 方法 查找 当前 列表 中 第 
一 个 匹配 firststr 变量 的 元 素 @@。 然 后 代码 递归 遍历 整 棵 树 ， 比 较 
testvec 变量 中 的 值 与 树 和 点 的 值 ， 如 果 到 达 叶 子 和 点 ， 则 返回 当前 贡 
点 的 分 类 标签 。 


将 程序 清单 3-8 包 含 的 代码 添加 a 到 文件 trees.py 之 后 ， 打 开 Python 命 令 提 
示 符 ， 输 入 下 列 命令 : 


>>> myDat,labels-trees.createDataSet() 


>>> labels 


['no surfacing', 'flippers'] 


>>> myTree-treePlotter.retrieveTree (0) 


>>> myTree 


{'no surfacing': (0: 'no', 1: ('flippers': (0: 'no', 1: 'yes'}}}} 


>>> trees.classify(myTree, labels, [1,0]) 


>>> trees.classify(myTree, labels, [1,1]) 


与 图 3-6 比 较 上 壕 输 出 结果 。 第 一 节点 名 为 no surfacing, EAM TSF 
TR: 一 个 是 名 字 为 0 的 叶子 节点 ， 类 标签 为 no ;为 一 个 是 名 为 
flippers 的 判断 和 点 ， 此 处 进入 递归 调用 ， flippers TAA SP 
点 。 以 前 绘制 的 树 形 图 和 此 处 代表 树 的 数据 结构 完全 相同 。 


现在 我 们 已 经 创建 了 使 用 决策 树 的 分 类 妖 ， 但 是 每 次 使 用 分 类 器 时 ， 
Be et eee TI Wan i eee eed 
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3.3.2 ”使 用 算法 : 决策 树 的 存储 


构造 决策 树 是 很 耗 时 的 任务 ， 即 使 处 理 很 小 的 数据 集 ， 如 前 面 的 样本 
数据 ， 也 要 人 论 费 几 秒 的 时 间 ， 如 末 数 据 集 很 大 ， 将 会 耗费 很 多 计算 时 
间 。 然 而 用 创建 好 的 决策 树 解决 分 类 问题 ， 则 可 以 很 快 完成 。 ALLL, 

为 了 市 省 计算 时 间 ， 最 好 能 够 在 每 次 执行 分 类 时 调用 已 经 构造 好 的 决 
策 树 。 为 了 解决 这 个 问题 ， 需 要 使 用 Python 模 块 pickle 序 列 化 对 象 ， 参 
见 程 序 清单 3-9。 序 列 化 对 象 可 以 在 磁盘 上 你 存 对 象 ， 并 在 需要 的 时 候 
读 取出 来 。 任 何 对 象 都 可 以 执行 序列 化 操作 ， 字 典 对 象 也 不 例外 。 


程序 清单 3-9 ”使 用 pickle 模 块 存 储 决 策 树 


def storeTree(in 


putTree, filename): 


import pickle 


fw = open(filename, 'w') 


pickle.dump(inputTree,fw) 


fw.close() 


def grabTree(filename): 


import pickle 


fr - open(filename) 


return pickle.load(fr) 


在 Python 命令 提示 符 中 输入 下 列 命令 验证 上 述 代 码 的 效果 : 
>>> trees.storeTree(myTree, 'classifierStorage.txt') 
>>> trees.grabTree('classifierStorage.txt') 


{'no surfacing': (0: 'no', 1: ('flippers': (0: 'no', 1: 'yes'}}}} 


xd EAS, RAT DATAS ae eae a DL. DU OT 
HORNE 2] 38, RRO, PRSETER T k- 
UE BRIA ICAI AMD Raw ^ 3X4 18] eH aE PL 
含 的 知识 信息 ， 在 需要 对 事物 进行 分 类 时 再 使 用 这 些 知识 。 下 市 我 们 
将 使 用 这 些 工具 处 理 隐 形 眼 镜 数 据 集 。 


3.4 示例 : 使 用 决策 树 预测 隐形 眼镜 类 型 


本 节 我 们 将 通过 一 个 例子 讲解 决策 树 如 何 预测 患者 需要 佩戴 的 隐形 眼 
锐 类 型 。 使 用 小 数据 集 ， 我 们 束 可 以 利用 决策 树 学 到 很 多 知识 : 眼科 
医生 是 如 何 判断 患者 需要 佩戴 的 镜 记 类型， 一旦 理解 了 决策 树 的 工作 
原理 ， 我 们 甚至 也 可 以 帮助 人 们 判断 需要 佩戴 的 镜 记 类型。 


示例 : 使 用 决策 树 预 测 隐形 眼镜 类 型 


1. 收集 数据 : 提供 的 文本 文件 。 

2. 准备 数据 : 解析 tab 键 分 隅 的 数据 行 。 

3. 分 析 数 据 : 快速 检查 数据 ， 确 保 正 确 地 解析 数据 内 容 ， 使 用 
createPlot() 函数 绘制 最 终 的 树 形 图 。 

4. 训练 算法 : 使 用 3.1 节 的 createTree() KZI ° 

5. 2 em 编写 测试 函数 验证 决策 树 可 以 正确 分 类 给 定 的 数据 实 
DE 
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隐形 眼镜 数据 集 ! 是 非常 著名 的 数据 集 ， 它 包含 很 多 患者 眼 部 状况 的 观 
察 条件 以 及 医生 推荐 的 隐形 眼 锐 类型。 隐形 服 锐 类 型 包括 人 硬 材质 、 软 
材质 以 及 不 适合 佩戴 隐形 眼镜 。 数 据 来 源 于 UCI 数 据 库 ， 为 了 更 容易 显 
E 


1. The dataset is a modified version of the Lenses dataset retrieved from the UCI Machine Learning Repository November 3, 2010 [http://archive.ics.uci.edu/ml/machine-learning- 
databases/lenses/]. The source of the data is Jadzia Cendrowska and was originally published in *PRISM: An algorithm for inducing modular rules," in International Journal of Man- 


Machine Studies (1987), 27, 349—70.) 
可 以 在 Python 命令 提示 符 中 输入 下 列 命令 加 载 数据 ; 
>>> frzopen('lenses.txt') 
>>> lenses-[inst.strip().split('Nt') for inst in fr.readlines()] 
>>> lensesLabels=['age', 'prescript', 'astigmatic', 'tearRate'] 
>>> lensesTree = trees.createTree(lenses, lensesLabels) 
>>> lensesTree 
{'tearRate': {'reduced': 'no lenses', 'normal': {'astigmatic': {'yes': 
{'prescript': {'hyper': {'age': {'pre': 'no lenses', 'presbyopic': 
"no lenses', 'young':'hard'}}, 'myope': 'hard'}}, 'no': {'age': {'pre': 
'soft', 'presbyopic': {'prescript': {'hyper': 'soft', 'myope': 
"no lenses'}}, 'young': 'soft'}}}}}} 


>>> treePlotter.createPlot(lensesTree) 


采用 文本 方式 很 难 分 辨 出 决策 树 的 模样 ， 最 后 一 行 命令 调用 
createPlot() 图 数 绘制 了 如 图 3-8 所 示 的 树 形 图 。 沿 着 决策 树 的 不 同 分 
文 ， 我 们 可 以 得 到 不 同 患者 需要 佩戴 的 隐形 眼镜 类 型 。 从 图 3-8 上 我 们 
医生 最 多 需要 问 四 个 问题 就 能 确定 患者 需要 佩戴 哪 种 类 
型 的 隐 É 2j $ 


图 3-8 由 ID3 算 法 产生 的 决策 树 

图 3-8 所 示 的 决策 树 非常 好 地 匹配 了 实验 数据 ， 然 而 这 些 匹 配 选 项 可 能 
KT 。 我 们 将 这 种 问题 称 之 为 过 度 匹 配 (overfitting) 。 为 了 减少 过 
度 匹 配 问题 ， 我 们 可 以 裁剪 决策 树 ， 去 掉 一 些 不 必要 的 叶子 节点 。 如 
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叶子 节点 中 。 第 9 章 将 进一步 讨论 这 个 问题 。 


第 9 章 将 学 习 另 一 个 决策 树 构造 算法 CART， 本 章 使 用 的 算法 称 为 ID3， 
它 是 一 个 好 的 算法 但 并 不 完美 。ID3 算 法 无 法 直接 处 理 数值 型 数据 ， 尽 
管 我 们 可 以 通过 量化 的 方法 将 数值 型 数据 转化 为 标 称 型 数值 ， 但 是 如 
果 存 在 太 多 的 特征 划分 ，ID3 算 法 仍然 会 面临 其 他 问题 。 
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决策 树 分 类 此 束 像 市 有 终止 块 的 流程 图 ， 终 止 块 表示 分 类 结果 。 开 始 
处 理 数 据 集 时 ， 我 们 首先 需要 测量 集合 中 数据 的 不 一 致 性 ， 也 就 是 
烂 ， 人 然后 寻找 最 优 方 案 划 分 数据 集 ， 直 到 数据 集中 的 所 有 数据 属于 同 
一 分 类 。ID3 算 法 可 以 用 于 划分 标 称 型 数据 集 。 构 建 决策 树 时 ， 我 们 通 
常 采用 递归 的 方法 将 数据 集 转化 为 决策 树 。 一 般 我 们 并 不 构造 新 的 数 
据 结 构 ， 而 是 使 用 Python 语言 内 磐 的 数据 结构 字典 存储 树 和 点 信息 。 


使 用 Matplotlib 的 注解 功能 ， 我 们 可 以 将 存储 的 树 结构 转化 为 容易 理解 
的 图 形 。Python 语 言 的 pickle 模 块 可 用 于 存储 决策 树 的 结构 。 隐 形 有 眼镜 
的 例子 表明 决策 树 可 能 会 产生 过 多 的 数据 集 划分 ， 从 而 产生 过 度 匹配 
数据 集 的 问题 。 我 们 可 以 通过 裁 藤 决策 树 ， 合 并 相 令 的 无 法 产生 大 量 
言 息 增益 的 叶 节 点 ， 消 除 过 度 匹配 问题 。 


还 有 其 他 的 决策 树 的 构造 算法 ， 最 流行 的 是 C4.5 和 CART， 第 9 划 讨 论 
回归 问题 时 将 介绍 CART 算 法 。 


本 书 第 2 章 、 第 3 章 讨论 的 是 结 采 确定 的 分 类 算法 ， 数 据 实 例 最 终 会 被 
明确 划分 到 某 个 分 类 中 。 下 一 章 我 们 讨论 的 分 类 算法 将 不 能 完全 确定 
和 


第 4 章 ”基于 概率 论 的 分 类 方法 ， 朴素 
DIETS 


本 章 内 容 


。 使 用 概率 分 布 进行 分 类 

。 学 习 朴 素 贝 叶 斯 分 类 器 

。 解析 RSS 源 数据 

。 使 用 朴素 贝 叶 斯 来 分 析 不 同 地 区 的 态度 


前 两 章 我 们 要 求 分 类 器 做 出 艰难 决策 ， 给 出 “该 数据 实例 属于 哪 一 

类 ”这 类 问题 的 明确 答案 。 不 过 ， 分 类 大 有 时 会 产生 错误 结果 ， 这 时 可 
人 崩 测 结果 ， 同 时 给 出 这 个 猜测 的 概 
AMA T o 


概率 论 是 许多 机 器 学 习 算法 的 基础 ， 所 以 深刻 理解 这 一 主题 就 显得 十 
分 重要 。 第 3 章 在 计算 特征 值 取 某 个 值 的 概率 时 涉及 了 一 些 概率 知识 
在 那里 我 们 先 统计 特征 在 数据 集中 取 某 个 特定 值 的 次 数 ， 然 后 除 以 数 
据 集 的 实例 总 数 ， 就 得 到 了 特征 取 该 值 的 概率 。 我 们 将 在 此 基础 上 深 
入 讨论 。 

本 章 会 给 出 一 些 使 用 概率 论 进行 分 类 的 方法 。 首 先 从 一 个 最 简单 的 概 
率 分 类 器 开始 ， 然 后 给 出 一 些 假设 来 学 习 朴素 贝 叶 斯 分 类 器 。 我们 称 
之 为" 朴素 "， 是 因为 整个 形式 化 过 程 只 做 最 原始 、 最 简单 的 假设 。 不 
必 担心 ， 你 会 详细 了 解 到 这 些 假设 。 我 们 将 充分 利用 Python 的 文本 处 理 
能 力 将 文档 切 分 成 词 向 量 ， 然 后 利用 词 向 量 对 文档 进行 分 类 。 我 们 还 
将 构建 另 一 个 分 类 器 ， 观 察 其 在 真实 的 垃圾 邮件 数据 集中 的 过 滤 效 
果 ， 必 要 时 还 会 回顾 一 下 条 件 概率 。 最 后 ， 我 们 将 介绍 如 何 从 个 人 发 
布 的 大 量 广告 中 学 习 分 类 器 ， 并 将 学 习 结果 转换 成 人 类 可 理解 的 信 


4.1 基于 贝 叶 斯 决策 理论 的 分 类 方法 
相 素 贝 叶 斯 
优点 ， 在 数据 较 少 的 情况 下 仍然 有 效 ， 可 以 处 理 多 关 别 问题 。 
缺点 ， 对 于 输入 数据 的 准备 方式 较为 敏感 。 
适用 数据 类 型 ， 标 称 型 数据 。 


朴素 贝 叶 斯 是 贝 叶 斯 决策 理论 的 一 部 分 ， 所 以 讲述 朴素 贝 叶 斯 之 前 有 
必要 快速 了 解 一 下 贝 叶 斯 决策 理论 。 


假设 现在 我 们 有 一 个 数据 集 ， 它 由 两 类 数据 组 成 ， 数 据 分 布 如 图 4-1 所 
ES 


-2 


-4 


图 4-1 ”两 个 参数 已 知 的 概率 分 布 ， 参 数 决定 了 分 布 的 形状 


假设 有 位 读者 找到 了 描述 图 中 两 类 数据 的 统计 参数 。 (暂且 不 用 管 如 
何 找到 描述 这 类 数据 的 统计 参数 ， 第 10 章 会 详细 介绍 。) 我 们 现在 用 
p1(x,y) 表示 数据 点 (x y ) 属 于 类 别 1 《图 中 用 圆 点 表示 的 类 别 ) 的 概率 ， 
用 p2(x,y) 表示 数据 点 xy ) 属 于 类 别 2 〈 图 中 用 三 角形 表示 的 类 别 ) 的 
那么 对 于 一 个 新 数据 点 (x ;y )， 可 以 用 下 面 的 规则 来 判断 它 的 类 
DUE 


。 如果 p1(x,y) > p2(x,y) ， 那 么 类 别 为 1。 
。 如果 p2(x,y) > pl(x,y) ， 那 么 类 别 为 2。 


也 束 是 说 ， 我 们 会 选择 高 概率 对 应 的 类 别 。 这 就 是 贝 叶 斯 决策 理论 的 
核心 思想 ， 即 选择 具有 最 高 概率 的 决策 。 回 到 图 4-1， 如 果 该 图 中 的 整 
个 数据 使 用 6 个 浮 点 数 :来 表示 ， 并 且 计 算 类 别 概率 的 Python 代码 只 有 两 
行 ， 那 么 你 会 更 倾 网 于 使 用 下 面 哪 种 方法 来 对 该 数据 点 进行 分 类 ? 


整个 数据 由 两 类 不 同 分 布 的 数据 构成 ， 有 可 能 只 需要 6 个 统计 参数 来 描述 。 一 一 译 者 注 


1. 使 用 第 1 章 的 kNN， 进 行 1000 次 距离 计算 ; 
2. 使 用 第 2 章 的 决策 树 ， 分 别 沿 x 轴 、y 轴 划 分 数据 ; 
3. 计算 数据 点 属于 每 个 类 别 的 概率 ， 并 进行 比较 。 


使 用 决策 树 不 会 非常 成 功 ， 而 和 简单 的 概率 计算 相 比 ，KNN 的 计算 量 
AUN 。 因 此 ， 对 于 上 述 问 题 ， 最 佳 选择 是 使 用 刚才 提 到 的 概率 比较 方 


法 


接 下 来 ， 我 们 必须 要 详 述 p1 及 p1 概 率 计算 方法 。 为 了 能 够 计算 p1 与 
p2， 有 必要 讨论 一 下 条 件 概率 。 如 果 你 觉得 自己 已 经 相当 了 解 条 件 概 
率 了 ， 那 么 可 以 直接 跳 过 下 一 广 。 


贝 叶 斯 ? 


这 里 使 用 的 概率 解释 属于 贝 叶 斯 概率 理论 的 范畴 ， 该 理论 非常 流 
行 且 效果 良好 。 贝 叶 斯 概率 以 18 世 纪 的 一 位 神学 家 托马斯 . 贝 叶 斯 
(Thomas Bayes) 的 名 字 命 名 。 贝 叶 斯 概率 引入 先 验 知识 和 逻辑 
推理 来 处 理 不 确定 命题 。 另 一 种 概率 解释 称 为 频数 概率 
(frequency probability) ， 它 只 从 数据 本 身 获 得 结论 ， 并 不 考 虚 逻 
辑 推理 及 先 验 知 识 。 


4.2 条件 概率 


接 下 来 花 点 时 间 讲 讲 概率 与 条 件 概率 。 如 果 你 对 p(x,ylc) 符号 很 熟 
悉 ， 那 么 可 以 跳 过 本 节 。 


假设 现在 有 一 个 效 了 7 块 石头 的 铅 子 ， 其 中 3 块 古 灰色 的 ，4 块 是 黑色 的 

(如 图 4-2 所 示 ) 。 如 果 从 鲍 子 中 随机 取出 一 块 石 尖 ， 那 么 是 灰色 石头 
的 可 能 性 是 多 少 ? 由 于 取石 头 有 7 种 可 能 ， 其 中 3 种 为 灰色 ， 所 以 取出 
灰色 石头 的 概率 为 37。 那么 取 到 黑色 石头 的 概率 又 是 多 少 呢 ? 很 显 


然 ， 征 4/7。 我 们 使 用 P(gray) 来 表示 取 到 灰色 石头 的 概率 ， 其 概率 值 
可 以 通过 灰色 石头 数目 除 以 总 的 石头 数目 来 得 到 。 
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图 4-2 ”一 个 包含 7 块 石头 的 集合 ， 石 头 的 颜色 为 灰色 或 者 黑色 。 如 果 随 
机 从 中 取 一 块 石头 ， 那么 取 到 灰色 石头 的 概率 为 3/7。 类 似 地 ， 取 到 黑 
色 石 头 的 概率 为 4/7 


头 如 图 4-3 所 示 放 在 两 个 桶 中 ， 那 么 上 述 概 率 应 该 如 何 计 
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Hja-3 ” 落 到 两 个 桶 中 的 7 块 石头 


要 计算 p(gray) 或 者 P(black) ， 事 先 得 知道 石头 所 在 桶 的 信息 会 不 会 改 
变 结果 ? 你 有 可 能 已 经 想到 计算 从 B 桶 中 取 到 灰色 石头 的 概率 的 办 法 ， 
这 就 是 所 请 的 条 件 概率 (conditional probability) 。 假 定 计算 的 是 从 B 
桶 取 到 灰色 石头 的 概率 ， 这 个 概率 可 以 记 作 pP(graylbucketB) ， 我 们 称 
之 为 “在 已 知 石头 出 自 B 桶 的 条 件 下 ， 取 出 灰色 石头 的 概率 "。 不 难得 
$l. P(gray|bucketA) 值 为 2/4，P(gray|bucketB) 的 值 为 /3。 


条 件 概 率 的 计算 公式 如 下 所 示 : 


P(gray|bucketB) = P(gray and bucketB)/P(bucketB) 


我 们 来 看 看 上 述 公 式 是 否 合 理 。 首 先 ， 用 B 桶 中 灰色 石头 的 个 数 除 以 两 
个 桶 中 总 的 石头 数 ， 得 到 P(gray and bucketB) = 1/7 ° 其 次 ， 由 于 B 
彬 中 有 3 块 石 头 ， 而 总 石头 数 为 7， 于 是 P(bucketB) 束 等 于 3/7。 于 是 有 
P(gray|bucketB) = P(gray and bucketB)/P(bucketB) = (1/7) / (3/7) 
= 1/3。 这 个 公式 虽然 对 于 这 个 简单 例子 来 说 有 点 复杂 ， 但 当 存 在 更 多 
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另 一 种 有 效 计 算 条 件 概率 的 方法 称 为 贝 叶 斯 准则 。 贝 时 斯 准则 告诉 我 
们 如 何 交 换 条 件 概 率 中 的 条 件 与 结果 ， 即 如 果 已 知 P(x|c) ， 要 求 
P(c|x) ， 那 么 可 以 使 用 下 面 的 计算 方法 : 


ax) = KAOKO 
ela) = ETC 


我 们 讨论 了 条 件 概率 ， 接 下 来 的 问题 是 如 何 将 其 应 用 到 分 类 器 中 。 下 
一 节 将 讨论 如 何 结 合 贝 叶 斯 决策 理论 使 用 条 件 概 率 。 


43 ”使 用 条 件 概 率 来 分 类 


4.1 太 提 人 到 贝 叶 斯 决策 理论 要 求 计算 两 个 概率 p1(x，y) 和 p2(x，y) : 


。 如 有 果 p1(x,，y) > p2(x，y) ， 那 么 属于 类 别 1; 
。 如 有 果 p2(x，y) > p1(x，y) ， 那 么 属于 类 别 2。 


但 这 两 个 准则 并 不 是 贝 叶 斯 决策 理论 的 所 有 内 容 。 使 用 p1( ) 和 p2( ) 
只 是 为 了 尽 可 能 简化 描述 ， 而 真正 需要 计算 和 比较 的 是 p(cz1lx，y) 和 
p(cz|x，y) 。 这 些 符号 所 代表 的 具体 意义 是 : 给 定 某 个 由 x、y 表 示 的 
数据 点 ， 那 么 该 数据 点 来 目 类 别 ci 的 概率 是 多 少 ? 数据 点 来 目 类 别 ca 
的 概率 又 是 多 少 ? 注意 这 些 概 率 与 刚才 给 出 的 概率 p(x，ylci) 并 不 一 
样 ， 不 过 可 以 使 用 贝 叶 斯 准则 来 交换 概率 中 条 件 与 结果 。 具 体 地 ， 应 
用 贝 叶 斯 准则 得 到 : 


au _ FXx| opto) 
力 (c|x) = *9 


使 用 这 些 定义 ， 可 以 定义 贝 叶 斯 分 类 准则 为 : 


。 如 采 P(cilx，y) > P(cz1x，y) ， 那 么 属于 类 别 c，。 
© ARP(elx, y) < P(czlx，y) ， 那 么 属于 类 别 cz 。 


使 用 贝 叶 斯 准则 ， 可 以 通过 已 知 的 三 个 概率 值 来 计算 未 知 的 概率 值 。 
后 面 就 会 给 出 利用 贝 叶 斯 准则 来 计算 概率 并 对 数据 进行 分 类 的 代码 。 
现在 介绍 了 一 些 概率 理论 ， 你 也 了 解 了 基于 这 些 理论 构建 分 类 器 的 方 
法 ， 接 下 来 束 要 将 它们 付 诸 实 践 。 下 一 廊 会 介绍 一 个 简单 但 功能 强大 
的 贝 叶 斯 分 类 器 的 应 用 案例 。 


4.4 使 用 裤 素 贝 叶 斯 进行 文档 分 类 


机 大 学 习 的 一 个 重要 应 用 束 是 文档 的 目 动 分 类 。 在 文档 分 类 中 ， 整 个 
文档 (如 一 封 电子 邮件 ) 是 实例 ， 而 电子 邮件 中 的 某 些 元 素 则 构成 特 
征 。 虽 然 电 子 邮 件 是 一 种 会 不 断 增 加 的 文本 ， 但 我 们 同样 也 可 以 对 新 
闻 报 道 、 用 户 留言 、 政 府 公 文 等 其 他 任意 类 型 的 文本 进行 分 类 。 我 们 
可 以 观察 文档 中 出 现 的 词 ， 并 把 每 个 词 的 出 现 或 者 不 出 现 作 为 一 个 等 
征 ， 这 样 得 到 的 特征 数目 束 会 跟 词 汇 表 中 的 词 目 一 样 多 。 朴 素 贝 时 斯 
十 二 三 介绍 的 贝 叶 斯 分 天 豆 的 一 个 入 展 ， 是 用 于 文档 分 类 的 第 用 算 
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使 用 每 个 词 作为 特征 并 观察 它们 是 否 出 现 ， 这 样 得 到 的 特征 数目 全 
多 少 呢 ? 针对 的 是 哪 一 种 人 类 语言 呢 ? 当然 不 止 一 种 语言 。 据 估计 ， 
仅 在 英语 中 ， 单 词 的 总 数 就 有 500 000, 之 多 。 为 了 能 进行 英文 阅读 ， 估 
计 需 要 掌握 数 干 单词 。 


朴素 贝 叶 斯 的 一 般 过 程 : 
1. 收集 数据 : 可 以 使 用 任何 方法 。 本 章 使 用 RSS 源 。 
2. 准备 数据 ， 需 要 数值 型 或 者 布尔 型 数据 


3. 分 析 数 据 : 有 大 量 特征 时 ， 绘 制 特征 作用 不 大 ， 此 时 使 用 直方 
图 效果 更 好 。 


4. 训练 算法 :计算 不 同 的 独立 特征 的 条 件 概率 。 
s. 测试 算法 ;计算 错误 率 。 


6. 使 用 算法 : 一 个 第 见 的 朴素 贝 叶 斯 应 用 是 文档 分 类 。 可 以 在 任 
意 的 分 类 场景 中 使 用 朴素 贝 叶 斯 分 类 器 ， 不 一 定 非 要 是 文本 。 


假设 词汇 表 中 有 1000 个 单词 。 要 得 到 好 的 概率 分 布 ， 束 需要 足够 的 数 
据 样 本 ， 假 是 样本 数 为 N。 前 面 讲 到 的 约会 网 站 示例 中 有 1000 个 实 

例 ， 手 写 识别 示例 中 每 个 数字 有 200 个 样本 ， 而 决策 树 示 例 中 有 24 个 样 
本 。 其 中 ，24 个 样本 有 点 少 ，200 个 样本 好 一 些 ， 而 1000 个 样本 束 非 党 
好 了 。 约 会 网 站 例子 中 有 三 个 特征 。 由 统计 学 知 ， 如 果 每 个 特征 需要 N 
个 样本 ， 那 么 对 于 10 个 特征 将 需要 N "个 样本 ， 对 于 包含 1000 个 特征 的 
词汇 表 将 需要 N ”个 样本 。 可 以 看 到 ， 所 需要 的 样本 数 会 随 着 特征 数目 
增 大 而 迅速 增长 。 


如 果 特 征 之 间 相 互 独立 ， 那 么 样本 数 就 可 以 从 减少 到 1000xN。 所 
谓 独 立 (independence) 指 的 是 统计 意义 上 的 独立 ， 即 一 个 特征 或 者 单 
词 出 现 的 可 能 性 与 它 和 其 他 单词 相 邻 没有 关系。 举 个 例子 讲 ， 假 设 单 
词 bacon 出 现在 unhealthy 后 面 与 出 现在 delicious 后 面 的 概率 相同 。 当 
然 ， 我 们 知道 这 种 假设 并 不 正确 ，bacon 和 常常 出 现在 delicious 附 近 ， 而 
很 少 出 现在 unhealthy 附 近 ， 这 个 假设 正 是 朴素 贝 叶 斯 分 类 器 中 朴素 
(naive) 一 词 的 舍 义 。 朴 素 贝 叶 斯 分 类 器 中 的 另 一 个 假设 是 ， 每 个 特 
征 同等 重要 :。 其 实 这 个 假设 也 有 问题 。 如 果 要 判断 留言 板 的 留言 是 否 
得 当 ， 那 么 可 能 不 需要 看 完 所 有 的 1000 个 单词 ， 而 只 需要 看 10~20 个 特 
征 就 足以 做 出 判断 了 。 尽 管 上 述 假 设 存 在 一 些小 的 瑕 狂 ， 但 朴素 贝 叶 
斯 的 实际 效 采 却 很 好 。 


2. 朴素 贝 叶 斯 分 类 器 通常 有 两 种 实现 方式 : 一 种 基于 贝 努 利 模型 实现 ， 一 种 基于 多 项 式 模型 实现 。 这 里 采用 前 一 种 实现 方式 。 该 实现 方式 中 并 不 考虑 词 在 文档 中 出 现 的 次 


数 ， 只 考虑 出 不 出 现 ， 因 此 在 这 个 意义 上 相当 于 假设 词 是 等 权重 的 。4.5.4 节 给 出 的 实际 上 是 多 项 式 模型 ， 它 考虑 词 在 文档 中 的 出 现 次 数 。 一 一 译 者 注 


到 目前 为 止 ， 你 已 经 了 解 了 足够 的 知识 ， 可 以 开始 编写 代码 了 “。 如 采 
还 不 清和 花 ， 那 么 了 解 代 码 的 实际 效果 会 有 助 于 理解 。 下 一 下 将 使 用 


Python K KMAR ULTRA AS gs, SEALE AU Xe Fil Pythons XÆ 
类 的 所 有 相关 内 容 。 
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要 从 文本 中 获取 特征 ， 需 要 先 拆 分 文本 。 具 体 如 何 做 呢 ? 这 里 的 特征 
是 来 自 文本 的 词 条 ”(token) ， 一 个 词 条 是 字符 的 任意 组 合 。 可 以 把 词 
条 想象 为 单词 ， 也 可 以 使 用 非 单词 词 条 ， 如 URL、 了 地址 或 者 任意 其 
他 字符 串 。 然 后 将 每 一 个 文本 片段 表示 为 一 个 词 条 癌 量 ， 其 中 值 为 1 表 
示 词 条 出 现在 文档 中 ，0 表 示 词 条 未 出 现 。 


以 在 线 社区 的 留言 板 为 例 。 为 了 不 影响 社区 的 发 展 ， 我 们 要 屏蔽 侮辱 
性 的 言论 ， 所 以 要 构建 一 个 快速 过 滤器 ， 如 果 某 条 留言 使 用 了 负面 或 
者 侮辱 性 的 语言 ， 那 么 就 将 该 留言 标识 为 内 容 不 当 。 过 滤 这 类 内 容 是 
一 个 很 常见 的 需求 。 对 此 问题 建立 两 个 类 别 : 侮辱 类 和 非 侮 辱 类 ， 使 
用 1 和 0 分 别 表示 。 


些 向 量 来 计算 条 件 概 率 ， 并 在 此 基础 上 构建 分 类 器 ， 最 后 还 要 介绍 
些 利 用 Python 实现 朴素 贝 叶 斯 过 程 中 需要 考虑 的 问题 。 


4.5.1 ”准备 数据 : 从 文本 中 构建 词 向 量 

我 们 将 把 文本 看 成 单词 癌 量 或 者 词 条 向 量 ， 也 就 是 说 将 句子 转换 为 癌 
量 。 考 虑 出 现在 所 有 文档 中 的 所 有 单词 ， 再 决定 将 哪些 词 纳入 词汇 表 
或 者 说 所 要 的 词汇 集合 ， 然 后 必须 要 将 每 一 篇 文档 转换 为 词汇 表 上 的 
回 量 。 接 下 来 我 们 正式 开始 。 打 开 文 本 编辑 器 ， 创 建 一 个 叫 bayes.py 的 
新 文件 ， 然 后 将 下 面 的 程序 清单 添加 到 文件 中 。 

程序 清单 4-1 词 表 到 向 量 的 转换 函数 


def loadDataSet(): 


postingList=[['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'], 


['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'], 


['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'], 


['stop', 'posting', 'stupid', 'worthless', 'garbage'], 


['mr', 'licks', 'ate', 'my', 'steak', 'how','to', 'stop', 'him' 


], 


['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']] 


classVec = [0,1,0,1,0,1] #1 代表 侮辱 性 文字 ，0 代 表 正 常言 论 


return postingList,classVec 


def createVocabList(dataSet): 


#0 创建 一 个 空 集 


vocabSet = set([]) 


for document in dataSet: 


#@ ”创建 两 个 集合 的 并 集 


g 


vocabSet = vocabSet | set(document) 


return list(vocabSet) 


def setOfWords2Vec(vocabList, inputSet): 


n 
mi 


所 含 元 素 都 为 9 的 向 量 


se 创建 一 个 其 


returnVec = [0]*len(vocabList) 


for word in inputSet: 


if word in vocabList: 


returnVec[vocabList.index(word)] = 1 
else: print "the word: %s is not in my Vocabulary!" % word 


return returnVec 


第 一 个 函数 loadpataset() 创建 了 一 些 实验 样本 。 该 函数 返回 的 第 一 个 
变量 是 进行 词 条 切 分 后 的 文档 集合 ， 这 些 文档 来 和 目 斑点 犬 爱 好 者 留言 
板 。 这 些 留言 文本 被 切 分 成 一 系列 的 词 条 集合 ， 标 点 符号 从 文本 中 去 
掉 ， 后 面 会 探讨 文本 处 理 的 细节 。1loadDataset( ) 函数 返回 的 第 二 个 
变量 是 一 个 类 别 标签 的 集合 。 这 里 有 两 类 ， 侮 辱 性 和 非 侮 辱 性 。 这 些 
文本 的 类 别 由 人 工 标注 ， 这 些 标注 信息 用 于 训练 程序 以 便 上 自动 检 测 侮 
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下 一 个 函数 createvocabList() 会 创建 一 个 包含 在 所 有 文档 中 出 现 的 不 
重复 词 的 列表 ， 为 此 使 用 了 Python 的 set 数据 类 型 。 将 词 条 列表 输 给 
set AERE, set 就 会 返回 一 个 不 重复 词 表 。 首 先 ， 创 建 一 个 空 集合 
@， 人 然后 将 每 篇 文档 返回 的 新 词 集合 添加 到 该 集合 中 @。 控 作 符 | 用 于 
求 两 个 集合 的 并 集 ， 这 也 是 一 个 按 位 或 (or) 操作 符 (参见 附录 C) e 
在 数学 符号 表示 上 ， 按 位 或 操作 与 集合 求 并 操作 使 用 相同 记号 。 


获得 词汇 表 后 ， 便 可 以 使 用 范 数 setofwords2vec() , EKZ A 
数 为 词汇 表 及 某 个 文档 ， 输 出 的 十 文档 向 量 ， 同 量 的 每 一 元 素 为 1 或 
0， 分 别 表示 词汇 表 中 的 单词 在 输入 文档 中 征 否 出 现 。 函 数 首先 创建 一 
个 和 词汇 表 等 长 的 向 量 ， 并 将 其 元 隶 都 设置 为 0 日。 接着 ， 电 历 文档 中 
的 所 有 单词 ， 如 末 出 现 了 词汇 表 中 的 单词 ， 则 将 输出 的 文档 同 量 中 的 
对 应 值 设 为 1。 一 切 都 顺利 的 话 ， 束 不 需要 检查 某 个 词 是 否 还 在 
vocabList 中 ， 后 边 可 能 会 用 到 这 一 操作 。 


现在 看 一 下 这 些 函 数 的 执行 效果 ， 保 存 bayes.py 文件 ， 然 后 在 Python 
提示 符 下 输入 : 


>>> import bayes 


>>> listOPosts,listClasses = bayes.loadDataSet() 


>>> myVocabList = bayes.createVocabList(listOPosts) 


>>> myVocabList 


['cute', 'love', 'help', 'garbage', 'quit', 'I', 'problems', 'is', 'park', 


'stop', 'flea', 'dalmation', 'licks', 'food', 'not', 'him', 'buying', 
'posting', 'has', 'worthless', 'ate', 'to', 'maybe', 'please', 'dog', 
'how', 'stupid', 'so', 'take', 'mr', 'steak', 'my'] 


检查 上 述 词 表 ， 束 会 发 现 这 里 不 会 出 现 重复 的 单词 。 目 前 该 词 表 还 没 
有 排序 ， 需 要 的 话 ， 稍 后 可 以 对 其 排序 。 


FIBRE — Ph ERZXsetofwords2vec() 的 运行 效果 : 


>>> bayes.setOfWords2Vec(myVocabList, listOPosts[0]) 

[0, ©, 1, ©, 0, ©, 1, 0, 0, 0, 1, 0, ©, 0, O, 0, ©, ©, 1, ©, 0, ©, O, 1, 1, 

0, 0, 0, 0, 0, 0, 1] 

>>> bayes.setOfWords2Vec(myVocabList, listOPosts[3] ) 

[0, ©, ©, 1, ©, ©, ©, 0, ©, 1, ©, 0, ©, 0, O, 0, ©, 1, ©, 1, 0, ©, 0, 0, 0, 

0, 1, ©, 0, 0, 0, 0] 
该 函数 使 用 词汇 表 或 者 想 要 检查 的 所 有 单词 作为 输入 ， 然 后 为 其 中 每 
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一 个 单词 构建 一 个 特征 。 一 旦 给 定 一 篇 文档 (斑点 犬 网 站 上 的 一 条 留 
> 、 Y ab > YS E s HHA 米 ENIM 
H) ， 该 文档 就 会 被 转换 为 词 向 量 。 接 下 来 检查 一 下 函数 的 有 效 性 。 
myVocabList 中 索引 为 2 的 元 素 是 什么 单词 ? 应 该 是 单词 help 。 该 单词 


中 出 现 ， 现 在 检查 一 下 看 看 它 征 否 出 现在 第 四 篇 文档 


4.5.2 “训练 算法 ;从 词 向 量 计算 概率 *xsx 


前 面 介 绍 了 如 何 将 一 组 单词 转换 为 一 组 数字 ， 接 下 来 看 看 如 何 使 用 这 
些 数字 计算 概率 。 现 在 已 经 知道 一 个 词 是 否 出 现在 一 篇 文档 中 ， 也 知 
道 该 文档 所 属 的 类 别 。 还 记得 3.2 厄 提 到 的 贝 叶 斯 准则 ? 我 们 重 写 贝 叶 
斯 准则 ， 将 之 前 的 x、y 蔡 换 为 w。 粗 体 w 表示 这 是 一 个 同 量 ， 即 它 由 
多 个 数值 组 成 。 在 这 个 例子 中 ， 数 值 个 数 与 词汇 表 中 的 词 个 数 相 同 。 
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p(w) 
我 们 将 使 用 上 述 公 式 ， 对 每 个 类 计算 该 值 ， 然 后 比较 这 两 个 概率 值 的 
大 小 。 如 何 计算 呢 ?首先 可 以 通过 类 别 i 《侮辱 性 留言 或 非 侮 厚 性 留 
B) 中 文档 数 除 以 总 的 文档 数 来 计算 概率 p(c ,) 。 接 下 来 计算 p( w Ic, 
) ， 这 里 就 要 用 到 朴素 贝 叶 斯 假设 。 如 果 将 w 展开 为 一 个 个 独立 特征 ， 
那么 就 可 以 将 上 述 概 率 写作 p(w ,,w ,,w , ..w ,lc , )。 这 里 假设 所 有 词 
都 互相 独立 ， 该 假设 也 称 作 条 件 独立 性 假设 ， 它 意味 着 可 以 使 用 p(w ， 
Ic, p(w, le, )p(w,|c,)...p(wyle,) RIA ERREK, 这 就 极 大 地 
简化 了 计算 的 过 程 。 


该 贸 数 的 伪 代 码 如 下 : 


计算 每 个 类 别 中 的 文档 数 


对 每 篇 训练 文档 : 


对 每 个 类 别 : 


如 果 词 条 出 现在 文档 中 ~ 增加 该 词 条 的 计数 值 


增加 所 有 词 条 的 计数 值 


对 每 个 类 别 : 


对 每 个 词 条 : 


将 该 词 条 的 数目 除 以 


i 
H 
# 


手 个 类 别 的 条 件 概率 


总 词 条 数目 得 到 条 4 


我 们 利用 下 面 的 代码 来 实现 上 述 伪 码 。 打 开 文 本 编辑 器 ， 将 这 些 代码 
添加 到 bayes .py 文件 中 。 该 函数 使 用 了 NumPy 的 一 些 函 数 ， 故 应 确保 
将 from numpy import * 语句 添加 到 bayes.py 文件 的 最 前 面 。 


程序 清单 4-2 ”朴素 贝 叶 斯 分 类 器 训练 画 数 


def trainNBO(trainMatrix,trainCategory): 


numTrainDocs - len(trainMatrix) 


numwords = len(trainMatrix[0]) 


pAbusive - sum(trainCategory)/float(numTrainDocs) 


#@ (以 下 两 行 ) 初始 化 概率 


pONum = zeros(numWords); piNum = zeros(numWords) 


pODenom = 0.0; piDenom = 0.0 


for i in range(numTrainDocs): 


if trainCategory[i] -- 1: 


#0 (以 下 


147) 向 上 


时 相 加 


piNum += trainMatrix[i] 


piDenom += sum(trainMatrix[i]) 


else: 


pONum += trainMatrix[i] 


pODenom += sum(trainMatrix[i]) 


piVect = piNum/piDenom #change to log() 


HO 对 每 个 元 素 做 除法 
pOVect = pONum/pODenom #change to log() 


return pOVect, piVect, pAbusive 


代码 函数 中 的 输入 参数 为 文档 矩阵 trainMatrix ， 以 及 由 每 篇 文档 类 别 
标签 所 构成 的 向 量 traincategory。 首 先 ， 计 算 文 档 属 于 侮辱 性 文档 

(class-1) 的 概率 ， 即 P(1) 。 因 为 这 是 一 个 二 类 分 类 问题 ， 所 以 可 以 
通过 1-P(1) 得 到 P(6) 。 对 于 多 于 两 类 的 分 类 问题 ， 则 需要 对 代码 稍 加 


修改 。 


计算 p(w , lc , ) 和 p(w , lc 。) ， 需 要 初始 化 程序 中 的 分 子 变量 和 分 母 变 
量 @。 由 于 w 中 元 素 如 此 众多 ， 因 此 可 以 使 用 NumPy 数 组 快速 计算 这 
些 值 。 上 壕 程序 中 的 分 母 变 量 是 一 个 元 素 个 数 等 于 词汇 表 大 小 的 
NumPy 数 组 。 在 for 循环 中 ， 要 遇 历 训练 集 trainMatrix 中 的 所 有 文 

档 。 一 旦 某 个 词语 (侮辱 性 或 正常 词语 ) 在 某 一 文档 中 出 现 ， 则 该 词 
对 应 的 个 数 (piNum 或 者 peNum ) 就 加 1， 而 且 在 所 有 的 文档 中 ， 该 文档 
的 总 词 数 也 相应 加 1@@。 对 于 两 个 类 别 都 要 进行 同样 的 计算 处 理 o 


最 后 ， 对 每 个 元 素 除 以 该 类 别 中 的 总 词 数 目 。 利 用 NumPy 可 以 很 好 实 
现 ， 用 一 个 数组 除 以 浮 点 数 即 可 ， 知 使 用 种 规 的 Python 列表 则 难以 完成 
读 着 可 以 目 己 笑 斌 一下。 最 后 ， 孙 数 会 返回 两 个 同 量 和 一 

| Ao 


接 下 来 试验 一 下 。 将 程序 清单 4-2 中 的 代码 添加 到 bayes .py 文件 中 ， 在 
Python 提示 符 下 输入 : 


>>> from numpy import * 


>>> reload(bayes) 


>>> listOPosts,listClasses = bayes.loadDataSet() 


该 语句 从 预 完 加 载 值 中 调 入 数据 

>>> myVocabList = bayes.createVocabList(listOPosts) 

至 此 我 们 构建 了 一 个 包含 所 有 词 的 列表 myvocabList ° 
>>> trainMat-[] 


>>> for postinDoc in listOPosts: 


. trainMat.append(bayes.setOfWords2Vec(myVocabList, postinDoc)) 


该 for 循环 使 用 词 向 量 来 填充 trainMat 列表 。 下 面 给 出 属于 侮辱 性 文档 
的 概率 以 及 两 个 类 别 的 概率 向 量 。 


>>> pOV,p1V, pAb=bayes.trainNBO(trainMat, listClasses) 


接 下 来 看 这 些 变量 的 内 部 值 : 


>>> pAb 


这 避 ® 是 任意 文档 属于 侮辱 性 文档 的 概率 。 


>>> pov 


array([ 0.04166667, 0.04166667, 0.04166667, 9. 


0.04166667, ©. ,  0.04166667, ©. ,  90.04166667, 


0.04166667, 0.125 1) 

>>> piv 

array([ 0. ， 0, , 0. ,  0.05263158, 0.05263158, 
9. ,  0.15789474, ©. ,  0.05263158, 0. 
9. , 89. 1) 


首先 ， 我 们 发 现 文档 属于 侮辱 类 的 概率 pAb 为 0.5， 该 值 是 正确 的 。 接 
DES 看 一 看 在 给 定 文档 类 别 条 件 下 词汇 表 中 单词 的 出 现 概率 ， 看 看 
否 正 确 。 词 汇 表 中 的 第 一 个 词 是 cute， 其 在 类 别 0 中 出 现 1 次 ， 而 在 类 
对 应 的 条 件 概率 分 别 为 0.041 666 67 与 0.0。 该 计算 是 
正确 的 。 我 们 找 找 所 有 概率 中 的 最 大 值 ， 该 值 出 现在 P(1) 数组 第 26 个 
下 标 位 置 ， 大 小 为 0.157 894 74。 在 myvocabList 的 第 26 个 下 标 位 置 上 可 
。 这 意味 着 stupid 是 最 能 表征 类 别 1 (侮辱 性 文档 
` TH] e 
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45.3 ”测试 算法 : 根据 现实 情况 修改 分 类 器 

利用 贝 叶 斯 分 类 器 对 文档 进行 分 类 时 ， 要 计算 多 个 概率 的 乘积 以 获得 
文档 属于 某 个 类 别 的 概率 ， 即 计算 p(w ,|1)p(w ,|1)p(w , 11) 。 如 果 其 


中 一 个 概率 值 为 0， 那 么 最 后 的 乘积 也 为 0。 为 降低 这 种 影响 ， 可 以 将 
所 有 词 的 出 现 数 初 始 化 为 1， 并 将 分 母 初 始 化 为 2。 


io UNCTIO 并 将 trainNBO( ) 的 第 4 行 和 第 5 行 
BRON: 


pONum = ones(numWords); piNum = ones(numWords) 


pODenom = 2.0; piDenom = 2.0 


A MESIAL Pim. EFF AS TR) ANA eI BAY © 4 
计算 乘积 p(w ,lc,)p(w,lc,)p(w,lc,)...p(wvlc,) 时 ， 由 于 大 部 
分 因子 都 非常 小 ， 所 以 程序 会 下 溢出 或 者 得 到 不 正确 的 答案 。 (读者 
可 以 用 Python 党 试 相 乘 许多 很 小 的 数 ， 最 后 四 低 五 入 后 会 得 到 0。) 一 
种 解决 办 法 是 对 乘积 取 目 然 对 数 。 在 代数 中 有 ln(a*b) = 1n(a)*1n(b) 
， 于 是 通过 求 对 数 可 以 避免 下 淤 出 或 者 浮 点 数 舍 入 导致 的 错误 。 同 

上 时， 采用 上 自然 对 数 进 行 处 理 不 会 有 任何 损失 。 图 4-4 给 出 函数 f(x) 与 
ln(f(x)) 的 曲线 。 检 查 这 两 条 曲线 ， 束 会 发 现 它们 在 相同 区 域内 同时 
增加 或 者 减少 ， 并 且 在 相同 点 上 取 到 极 值 。 它 们 的 取 值 虽然 不 同 ， 但 
Th 

器 中 : 


piVect = log(piNum/piDenom) 


pOVect = log(pONum/pODenom) 


046 0.1 0.2 0.3 0.4 0.5 
0.0 


In(f(x)) 
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-2.5 
7305 0.1 0.2 0.3 0.4 0.5 

4-4 ERE f(x) 与 In(f(x)) 会 一 块 增 大 。 这 表明 想 求 函数 的 最 大 值 

时 ， 可 以 使 用 该 加 数 的 自然 对 数 来 蔡 换 原 档 数 进行 求解 

现在 已 经 准备 好 构建 完整 的 分 类 器 了 “。 当 使 用 NumPy 回 量 处 理 功能 

上 时， 这 一 切 变 得 十 分 简单 。 打 开 文 本 编辑 器 ， 将 下 面 的 代码 添加 到 

bayes.py 中 : 

程序 清单 4-3 ”朴素 贝 时 斯 分 类 函数 


def classifyNB(vec2Classify, pOVec, piVec, pClass1): 


#0 TAR 


pi = sum(vec2Classify * piVec) + log(pClass1) 


pO = sum(vec2Classify * pOVec) + log(1.0 - pClass1) 


if p1 > po: 


return 1 


else: 


return 0 


def testingNB(): 


listOPosts,listClasses = loadDataSet() 


myVocabList = createVocabList(listOPosts) 


trainMat-[] 


for postinDoc in listOPosts: 


trainMat.append(setOfWords2Vec(myVocabList, postinDoc)) 


pOV, p1V,pAb = trainNBO(array(trainMat),array(listClasses)) 


testEntry = ['love', 'my', 'dalmation'] 


thisDoc - array(setOfWords2Vec(myVocabList, testEntry)) 


print testEntry, classified as: ',classifyNB(thisDoc, p0V, p1V, pAb) 


testEntry - ['stupid', 'garbage'] 


thisDoc = array(setOfWords2Vec(myVocabList, testEntry)) 


print testEntry, classified as: ',classifyNB(thisDoc, pO0V, p1V, pAb) 


程序 清单 4-3 的 代码 有 4 个 输入 : 要 分 类 的 癌 量 vec2classify DJ A [s FH EN 
数 trainNB9() 计算 得 到 的 三 个 概率 。 使 用 NumPy 的 数组 来 计算 两 个 加 
量 相 乘 的 结果 @。 这 里 的 相 乘 是 指 对 应 元 素 相 乘 ， 即 先 将 两 个 同 量 中 
的 第 1 个 元 隶 相 乘 ， 然 后 将 第 2 个 元 素 相 乘 ， 以 此 类 推 。 接 下 来 将 词汇 
表 中 所 有 词 的 对 应 值 相 加 ， 然 后 将 该 值 加 到 类 别 的 对 数 概 率 上 。 最 
Ta 
对 吧 : 


代码 的 第 二 个 函数 是 一 个 便利 历数 (convenience function) ， 该 函数 封 
装 所 有 操作 ， 以 节省 输入 4.3.1 节 中 代码 的 时 间 。 


下 面 来 看 看 实际 结果 。 将 程序 清单 4-3 中 的 代码 添加 之 后 ， 在 Python 提 
示 符 下 输入 : 


>>> reload(bayes) 

«module 'bayes' from 'bayes.pyc'> 

>>>bayes.testingNB() 

['love', 'my', 'dalmation'] classified as: 0 

['stupid', 'garbage'] classified as: 1 
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代码 做 些 修 改 ， 使 分 类 器 工作 得 更 好 。 
4.5.4 ”准备 数据 :文档 词 绕 模型 
目前 为 止 ， 我 们 将 每 个 词 的 出 现 与 否 作为 一 个 特征 ， 这 可 以 被 描述 为 
词 集 模 型 〈setrof-words model) 。 如 果 一 个 词 在 文档 中 出 现 不 止 一 


次 ， 这 可 能 意味 着 包含 该 词 是 否 出 现在 文档 中 所 不 能 表达 的 某 种 信 
息 ， 这 种 方法 被 称 为 词 袋 模型 (bag-of-words model) 。 在 词 袋 中 ， 


个 单词 可 以 出 现 多 次 ， 而 在 词 集 中 ， 每 个 词 只 能 出 现 一 次 。 为 适应 词 
袋 模型 ， 需 要 对 函数 setofwords2vec() 稍 加 修改 ， 修 改 后 的 函数 称 头 
bagOfWords2Vec() ° 


下 面 的 程序 清单 给 出 了 基于 词 袋 模型 的 朴素 贝 叶 斯 代码 。 它 与 函数 
setOfWords2Vec() 几乎 完全 相同 ， 唯 一 不 同 的 是 每 当 壳 到 一 个 单词 
时 ， 它 会 增加 词 向 量 中 的 对 应 值 ， 而 不 只 是 将 对 应 的 数值 设 为 1 。 


程序 清单 4-4 ”朴素 贝 叶 斯 词 袋 模型 


def bagOfWords2VecMN(vocabList, inputSet): 
returnVec - [0]*len(vocabList) 
for word in inputSet: 
if word in vocabList: 
returnVec[vocabList.index(word)] += 1 


return returnVec 


UE 


4.6 示例 : GERIT DUT ATER EE 


TE BU A Mal BA IA, RTS AT SEISERR ZS © (EAA RD Se LT 
解决 一 些 现实 生活 中 的 问题 时 ， 需 要 先 从 文本 内 容 得 到 字符 串 列表 ， 
然后 生成 词 回 量 。 下 面 这 个 例子 中 ， 我 们 将 了 解 朴素 贝 叶 斯 的 一 个 最 
aoe 电子 邮件 垃圾 过 小。 首先 看 一 下 如 何 使 用 通用 框架 来 解 
决 该 问题 。 


示例 : 使 用 朴素 贝 叶 斯 对 电子 邮件 进行 分 类 


1. 收集 数据 : 提供 文本 文件 。 
2. 准备 数据 ， 将 文本 文件 解析 成 词 条 癌 量 。 


3. 分 析 数 据 : 检查 词 条 确保 解析 的 正确 性 。 

4. 训练 算法 : 使 用 我 们 之 前 建立 的 trainNB9() 函数 o 

5. 测 试 算法 : 使 用 classifyNB() ， 并 且 构 建 一 个 新 的 测试 函数 来 计 
算 文档 集 的 错误 率 。 

6. 使 用 算法 : 构建 一 个 完整 的 程序 对 一 组 文档 进行 分 类 ， 将 错 分 的 
文档 输出 到 屏幕 上 。 


下 面 首先 给 出 将 文本 解析 为 词 条 的 代码 。 人 然后 将 该 代码 和 前 面 的 分 类 
代码 集成 为 一 个 钞 数 ， 该 函数 在 测试 分 类 融 的 同时 会 给 出 错误 率 。 


4.6.1 ”准备 数据 : 切 分 文本 

前 一 节 介 绍 了 如 何 创 建 词 同 量 ， 并 基于 这 些 词 向 量 进行 朴素 贝 叶 斯 分 
类 的 过 程 。 前 一 节 中 的 词 同 量 是 预先 给 定 的 ， 下 面 介绍 如 何 从 文本 文 
档 中 构建 自己 的 词 列表 。 


对 于 一 个 文本 字符 串 ， 可 以 使 用 Python 的 string .split() 方法 将 其 切 
分 。 下 面 看 看 实际 的 运行 效果 。 在 Python 提 示 符 下 输入 : 


>>> mySent='This book is the best book on Python or M.L. I have ever laid eyes u 


pon.' 


>>> mySent.split() 


['This', 'book', 'is', 'the', 'best', 'book', 'on', 'Python', 'or', 'M.L.','I', 


'have', 'ever', 'laid', 'eyes', 'upon.'] 


可 以 看 到 ， 切 分 的 结果 不 错 ， 但 是 标点 符号 也 被 当成 了 词 的 一 部 分 。 
T a a a 
ih TTR 


>>> import re 


>>> regEx = re.compile('\\w*') 


>>> listOfTokens = regEx.split(mySent ) 


>>> listOfTokens 


['This', 'book', 'is', 'the', 'best', 'book', 'on', 'Python', 'or', 'M', 'L', '' 


'I', 'have', 'ever', 'laid', 'eyes', 'upon', ''] 


现在 得 到 了 一 系列 词组 成 的 词 表 ， 但 是 里 面 的 空 字符 串 需 要 去 掉 。 可 
以 计算 每 个 字符 串 的 长 度 ， 只 返回 长 度 大 于 0 的 字符 串 。 


>>> [tok for tok in listofTokens if len(tok) > 0] 


最 后 ， 我 们 发 现 句子 中 的 第 一 个 单词 是 大 写 的 。 如 果 目 的 是 句子 查 
找 ， 那 么 这 个 特 总 会 很 有 用 。 但 这 里 的 文本 只 看 成 词 袋 ， 所 以 我 们 布 
F 词 的 形式 都 是 统一 的 ， 不 论 它们 出 现在 句子 中 间 、 结 尾 还 是 开 


Python 中 有 一 些 内 级 的 方法 可 以 将 字符 串 全 部 转换 成 小 写 〈.lower() ) 
~ ) ， 借 助 这 些 方法 可 以 达到 目的 。 于 是 ， 可 以 进行 
H BB. 


>>> [tok.lower() for tok in listOfTokens if len(tok) > 0] 


['this', 'book', 'is', 'the', 'best', 'book', 'on', 'python', 'or', 'm', 'l', 'i 


', 'have', 'ever', 'laid', 'eyes', 'upon'] 


现在 来 看 数据 集中 一 封 完 整 的 电子 邮件 的 实际 处 理 结果 。 该 数据 集 放 
在 email 文 件 夹 中 ， 该 文件 夹 义 包含 两 个 子 文件 来 ， 分 别 是 spam 与 


ham ? 


>>> emailText = open('email/ham/6.txt').read() 


>>> listOfTokens-regEx.split(emailText) 


文件 夹 ham 下 的 6.txt 文 件 非常 长 ， 这 是 某 公 司 告知 我 他 们 不 再 进行 某 些 
文 持 的 一 封 邮 件 。 需 要 注意 的 是 ， 由 于 是 URL: answer.py? 
hl=en&answer=174623 的 一 部 分 ， 因 而 会 出 现 en 和 py 这 样 的 单词 。 当 对 


URL 进 行 切 分 时 ， 会 得 到 很 多 的 词 。 我 们 是 想 去 挥 这 些 单词 ， 因 此 在 
实现 时 会 过 滤 挥 长 度 小 于 3 的 字符 串 。 本 例 使 用 一 个 通用 的 文本 解析 规 
则 来 实现 这 一 点 。 在 实际 的 解析 程序 中 ， 要 用 更 高 级 的 过 滤器 来 对 诸 
如 HTML 和 URI 的 对 象 进行 处 理 。 目 前 ， 一 个 URI 最 终 会 解析 成 词汇 表 
中 的 单词 ， 比 如 www.whitehouse.gov 会 被 解析 为 三 个 单词 。 文 本 解析 可 
能 是 一 个 相当 复杂 的 过 程 。 接 下 来 将 构建 一 个 极其 简单 的 函数 ， 你 可 
以 根据 情况 自行 修改 。 


4.6.20 ”测试 算法 : 使 用 朴素 贝 叶 斯 进行 交叉 验证 


下 面 将 文本 解析 天 集成 到 一 个 完整 分 类 郁 中 。 打 开 文 本 编辑 贡 ， 将 下 
面 程 序 清单 中 的 代码 添加 到 bayes .py 文件 中 。 


程序 清单 4-5 ”文件 解析 及 完整 的 垃圾 邮件 测试 画 数 


def textParse(bigString): 


import re 


listOfTokens = re.split(r'NW*', bigString) 


return [tok.lower() for tok in listOfTokens if len(tok) » 2] 


def spamTest(): 


docList-[]; classList = []; fullText =[] 


for i in range(1,26): 


#@ (AFET) 导入 并 解析 文本 文件 


wordList = textParse(open('email/spam/%d.txt' % i).read()) 


docList.append(wordList) 


fullText.extend(wordList) 


classList.append(1) 


wordList = textParse(open('email/ham/%d.txt' % i).read()) 


docList.append(wordList) 


fullText.extend(wordList) 


classList.append(0) 


vocabList = createVocabList(docList) 


trainingSet - range(50); testSet-[] 


49 (以 下 四 行 ) 随机 构建 训练 


for i in range(10): 


randIndex = int(random.uniform(0, len(trainingSet ) ) ) 


testSet.append(trainingSet[randIndex]) 


del(trainingSet[randIndex]) 


trainMat-[]; trainClasses - [] 


for docIndex in trainingSet: 


trainMat.append(setOfWords2Vec(vocabList, docList[docIndex])) 


trainClasses.append(classList[docIndex]) 


pov, p1V,pSpam = trainNBO(array(trainMat),array(trainClasses)) 


errorCount = 0 


46 〈 以 下 四 行 ) 对 测试 集 分 类 


for docIndex in testSet: 


wordVector - setOfWords2Vec(vocabList, docList[docIndex]) 


if classifyNB(array(wordVector), p0V, p1V, pSpam) != 


classList[docIndex]: 


errorCount += 1 


print 'the error rate is: ',float(errorCount)/len(testSet) 


第 一 个 芳 数 textParse( ) 接受 一 个 大 字符 串 并 将 其 解析 为 子 符 串 列表 。 
该 贸 数 去 挥 少 于 两 个 字符 的 字符 串 ， 并 将 所 有 字符 串 转 换 为 小 写 。 你 
oe eer 但 是 目前 的 实现 对 于 我 们 的 应 用 


第 二 个 函数 spamTest() 对 贝 叶 斯 垃圾 邮件 分 类 需 进 行 目 动 化 处 理 。 导 
入 文件 夹 spanm Sham 下 的 文本 文件 ， 并 将 它们 解析 为 词 列 表 @。 接 下 来 
构建 一 个 测试 集 与 一 个 训练 集 ， 两 个 集合 中 的 邮件 都 是 随机 选 出 的 。 
本 例 中 共有 50 封 电子 邮件 ， 并 不 是 很 多 ， 其 中 的 10 封 电子 邮件 被 随机 
选择 为 测试 集 。 分 类 器 所 需要 的 概率 计算 只 利用 训练 集中 的 文档 来 完 
成 。 Python &trainingset 是 一 个 整数 列表 ， 其 中 的 值 从 0 到 49。 接 下 
来 ， 随 机 选择 其 中 10 个 文件 @@。 选 择 出 的 数字 所 对 应 的 文档 被 添加 到 
测试 集 ， 同 时 也 将 其 从 训练 集中 剔除 。 这 种 随机 选择 数据 的 一 部 分 作 
为 训练 集 ， 而 剩余 部 分 作为 测试 集 的 过 程 称 为 留存 交叉 验证 (hold-out 
cross validation) 。 假 定 现 在 只 完成 了 一 次 迭代 ， 那 么 为 了 更 精确 地 估 
计 分 类 屁 的 错误 率 ， 就 应 该 进行 多 次 迭代 后 求 出 平均 错误 率 。 


接 下 来 的 for 循环 遍历 训练 集 的 所 有 文档 ， 对 每 封 邮件 基于 词汇 表 并 使 
FHsetofwords2vec() 函数 来 构建 词 同 量 。 这 些 词 在 traindNB0() 函数 中 
用 于 计算 分 类 所 需 的 概率 。 然 后 遍历 测试 集 ， 对 其 中 每 封 电子 邮件 进 

"oem 。 如 采 邮 件 分 类 错误 ， 则 错误 数 加 1， 最 后 给 出 总 的 钳 误 百 分 


下 面 对 上 述 过 程 进行 尝试 。 输 入 程序 清单 4-5 的 代码 之 后 ， 在 Python 所 
示 符 下 输入 : 


>>> bayes.spamTest() 
the error rate is: 0.0 


>>> bayes.spamTest() 


classification error ['home', 'based', 'business', 'opportunity', 'knocking', 'y 
our', 'door', 'don', 'rude', 'and', 'let', 'this', 'chance', 'you', 'can', 'earn 
', 'great', 'income', 'and', 'find', 'your', 'financial', 'life', 'transformed', 

'learn', 'more', 'here', 'your', 'success', 'work', 'from', 'home', 'finder', ' 
experts'] 


the error rate is: 0.1 


函数 spamTest () 会 输出 在 10 封 随机 选择 的 电子 邮件 上 的 分 类 错误 率 。 
既然 这 些 电 子 邮 件 走 随机 选择 的 ， 所 以 每 次 的 输出 结 采 可 能 有 些 老 
别 。 如 下 发 现 错 误 的 话 ， 函 数 会 输出 错 分 文档 的 词 表 ， 这 样 就 可 以 了 
解 到 的 十 哪 篇 文档 发 生 了 错误。 如 果 想 要 更 好 地 估计 和 错误 率 ， 那 么 区 
应 该 将 上 述 过 程 重复 多 次 ， 比 如 说 10 次 ， 然 后 求 平 均值 。 我 这 么 做 了 
一 下 ， 获 得 的 平均 错误 率 为 6%。 


这 里 一 直 出 现 的 错误 是 将 垃圾 邮件 误 判 为 正常 邮件 。 相 比 之 下 ， 将 垃 
圾 邮件 误 判 为 正常 邮件 要 比 将 正常 邮件 归 到 垃圾 邮件 好 = Ja RE 
误 ， 有 多 种 方式 可 以 用 来 修正 分 类 器 ， 这 些 将 在 第 7 章 中 进行 讨论 。 
目前 我 们 已 经 使 用 朴素 贝 时 斯 来 对 文档 进行 分 类 ， 搂 下 来 将 介绍 它 的 
另 一 个 应 用 。 下 一 个 例子 还 会 给 出 如 何 解释 朴素 贝 叶 斯 分 类 器 训练 所 
得 到 的 知识 。 

4.7 示例 : BATRA aR TA 
广告 中 获取 区 域 倾向 


本 章 的 最 后 一 个 例子 非常 有 趣 。 我 们 前 面 介 绍 了 朴素 贝 叶 斯 的 两 个 实 
际 应 用 的 例子 ， 第 一 个 例子 古 过 滤 网 站 的 恶意 留言 ， 第 二 个 是 过 滤 垃 
圾 邮件 。 分 类 还 有 大 量 的 其 他 应 用 。 我 曾经 见 过 有 人 使 用 朴素 贝 叶 斯 
从 他 喜欢 及 不 豆 欢 的 女性 的 社交 网 络 档案 学 习 相 应 的 分 类 器 ， 然 后 利 
用 该 分 类 亏 测 试 他 是 否 会 喜欢 一 个 阳 生 女人 。 分 类 的 可 能 应 用 确实 有 
很 多 ， 比 如 有 证 据 表 示 ， 人 的 年 龄 越 大 ， 他 所 用 的 词 也 越 好 。 那 么 ， 
可 以 基于 一 个 人 的 用 词 来 推测 他 的 年 龄 吗 ? 除了 年 龄 之 外 ， 还 能 否 推 
测 其 他 方面 ? 广告 商 往往 想 知道 关于 一 个 人 的 一 些 特定 人 口 统计 信 
思 ， 以 便 能 够 更 好 地 定 同 推 戎 广告 。 从 哪里 可 以 获得 这 些 训 练 数 据 
呢 ? 事实 上 ， 互 联网 上 拥有 大 量 的 训练 数据 。 几 乎 任 一 个 能 想到 的 利 
基 市 场 ' 都 有 专业 社区 ， 很 多 人 会 认为 目 己 属 于 该 社区 。4.5.1T 中 的 斑 
扩大 爱好 者 网 站 整 古 一 个 非 第 好 的 例子 。 


1. 利 基 (niche) 是 指针 对 企业 的 优势 细 分 出 来 的 市 场 ， 这 个 市 场 不 大 ， 而 且 没 有 得 到 令 人 满意 的 服务 。 产 品 推进 这 个 市 场 ， 有 鳃 利 的 基础 。 在 这 里 特 指针 对 性 和 专业 性 都 


很 强 的 产品 。 也 就 是 说 ， 利 基 是 细 分 市 场 没有 被 服务 好 的 群体 。 一 一 译 者 注 


在 这 个 最 后 的 例子 当中 ， 我 们 将 分 别 从 美国 的 两 个 城市 中 选取 一 些 
人 ， 通 过 分 析 这 些 人 发 布 的 征婚 广告 信息 ， 来 比较 这 两 个 城市 的 人 们 
在 广告 用 词 上 是 否 不 同 。 如 果 结 论 确实 是 不 同 ， 那 么 他 们 各 目 常 用 的 
词 是 哪些 ? 从 人 们 的 用 词 当 中 ， 我 们 能 否 对 不 同城 市 的 人 所 关心 的 内 
容 有 所 了 解 ? 


示例 : 使 用 朴素 贝 叶 斯 来 发 现 地 域 相关 的 用 词 


1. 收集 数据 : 从 RSS 源 收集 内 容 ， 这 里 需要 对 RSS 源 构建 一 个 接口 。 

2. 准备 数据 ， 将 文本 文件 解析 成 词 条 加 量 。 

3. 分 析 数 据 ， 检查 词 条 确保 解析 的 正确 性 。 

4. 训练 算法 : 使 用 我 们 之 前 建立 的 trainNBe@() 函数 。 

5. 测试 算法 : 观察 错误 率 ， 确 保 分 类 器 可 用 。 可 以 修改 切 分 程序 ， 
以 降低 错误 率 ， 提 高 分 类 结果 。 

6. 使 用 算法 : 构建 一 个 完整 的 程序 ， 封 装 所 有 内 容 。 给 定 两 个 RSS 
源 ， 该 程序 会 显示 最 前 用 的 公共 词 。 


下 面 将 使 用 来 自 不 同城 市 的 广告 训练 一 个 分 类 器 ， 然 后 观察 分 类 句 的 
效果 。 我 们 的 目的 并 不 十 使 用 该 分 类 器 进行 分 类 ， 而 古 通 过 观 绎 单词 
和 条 件 概 率 值 来 发 现 与 特定 城市 相关 的 内 容 。 


4.7.1 “收集 数据 : 导入 RSS 源 


接 下 来 要 做 的 第 一 件 事 是 使 用 Python 下 载 文本 。 对 好 ， 利 用 RSS， 这 些 
文本 很 容易 得 到 。 现 在 所 需要 的 是 一 个 RSS 阅 读 器 。Universal Feed 
Parser 是 Python 中 最 常用 的 RSS 程 序 库 。 


UK RT DAXEhttp://code.google.com/p/feedparser/ 下 浏览 相关 文档 ， 然 后 和 
其 他 Python 包 一 样 来 安装 feedparse。 首 先 解压 下 载 的 包 ， 并 将 当前 目录 
切换 到 解压 文件 所 在 的 文件 来， 然后 在 Python 提 示人 和 从 下 殴 入 >>python 


setup.py install ° 


下 面 使 用 Craigslist 上 的 个 人 广告 ， 当 然 希 望 是 在 服务 条 款 允 许 的 条 件 
下 。 打 开 Craigslist 上 的 RSS 源 ， 在 Python 提 示人 符 下 输入 : 


>>> import feedparser 

>>>ny=feedparser .parse('http://newyork.craigslist.org/stp/index.rss') 
我 决定 使 用 Craigslist 中 比较 纯洁 的 那 部 分 内 容 ， 其 他 内 容 稍 显 少儿 不 
宜 。 你 可 以 查阅 feedparser.org 中 出 色 的 说 明文 档 以 及 RSS 源 。 要 访问 所 
有 条 目的 列表 ， 输 入 : 

>>> ny['entries'] 

>>> len(ny['entries']) 
可 以 构建 一 个 类 似 于 spamTest() 的 函数 来 对 测试 过 程 目 动 化 。 打 开 文 
本 编辑 器 ， 输 入 下 列 程序 请 单 中 的 代码 。 
程序 清单 4-6 ”RSS 源 分 类 器 及 高 频 词 去 除 画 数 


#@ (以 下 四 行 ) 计算 出 现 频率 


def calcMostFreq(vocabList,fullText): 


import operator 


freqDict = {} 


for token in vocabList: 


freqDict[token]-fullText.count(token) 


sortedFreq = sorted(freqDict.iteritems(), key=operator.itemgetter(1), revers 


e-True) 


return sortedFreq[:30] 


def localWwords(feed1,feed0): 


import feedparser 


docList-[]; classList = []; fullText =[] 


minLen = min(len(feedi['entries']),len(feedO['entries'])) 


for i in range(minLen): 


#0 每 次 访问 一 条 RSS 源 


出 


wordList = textParse(feedi['entries'][i]['summary']) 


docList.append(wordList) 


fullText.extend(wordList) 


classList.append(1) 


wordList - textParse(feedO['entries'][i]['summary']) 


docList.append(wordList) 


fullText.extend(wordList) 


classList.append(0) 


#0 以 下 四 行 ) 去 掉 出 现 次 数 最 高 的 那些 词 


vocabList = createVocabList(docList) 


top30Words = calcMostFreq(vocabList, fullText) 


for pairW in top30Words: 


if pairW[0] in vocabList: vocabList.remove(pairW[0]) 


trainingSet - range(2*minLen); testSet-[] 


for i in range(20): 


randIndex = int(random.uniform(0,len(trainingSet))) 


testSet.append(trainingSet[randIndex]) 


del(trainingSet[randIndex]) 


trainMat-[]; trainClasses - [] 


for docIndex in trainingSet: 


trainMat.append(bagOfWords2VecMN(vocabList, docList[docIndex])) 


trainClasses.append(classList[docIndex]) 


pov, p1V,pSpam = trainNBO(array(trainMat),array(trainClasses)) 
errorCount = 0 
for docIndex in testSet: 
wordVector = bagOfWords2VecMN(vocabList, docList[docIndex] ) 
if classifyNB(array(wordVector), p0V,piV,pSpam) != \ 
classList[docIndex]: 
errorCount += 1 
print 'the error rate is: ',float(errorCount)/len(testSet) 


return vocabList, pOV, p1V 


Ex FOIS AS DUREE TH 4-5 FERN spamrest() ， 不 过 添加 了 新 的 功 

能 。 代 码 中 引入 了 一 个 辅助 函数 calcMostFreq() @。 该 男 数 遍历 词汇 表 
中 的 每 个 词 并 统计 它 在 文本 中 出 现 的 次 数 ， 然 后 根据 出 现 次 数 从 高 到 
低 对 词典 进行 排序 ， 最 后 返回 排序 最 高 的 30 个 单词 。 你 很 快 束 会 明白 
这 个 函数 的 重要 性 。 


下 一 个 函数 localwords() 使 用 两 个 RSS 源 作为 参数 。RSS 源 要 在 函数 外 
导入 ， 这 样 做 的 原因 是 RSS 源 会 随时 间 而 改变 。 如 果 想 通过 改变 代码 来 
比较 程序 执行 的 差异 ， 就 应 该 使 用 相同 的 输入 。 重 新 加 载 RSS 源 束 会 得 
到 新 的 数据 ， 但 很 难 确定 是 代码 原因 还 是 输入 原因 导致 输出 结果 的 改 
变 。 函 数 localwords() 与 程序 清单 4-5 中 的 spamTest() 函数 几乎 相同 ， 
区 别 在 于 这 里 访问 的 是 RSS 源 @ 而 不 是 文件 。 然 后 调用 函数 
calcMostFreq( ) 来 获得 排序 最 高 的 30 个 单词 并 随后 将 它们 移 除 @。 了 函数 
ene 基本 类 似 ， 不 同 的 是 最 后 一 行 要 返回 下 面 要 
IHE o 


你 可 以 注释 掉 用 于 移 除 高 频 词 的 三 行 代码 ， 然 后 比较 注释 前 后 的 分 类 
性 能 @。 我 日 己 也 竹 试 了 一 下 ， 去 挥 这 儿 行 代码 之 后 ， 我 发 现 错误 率 


为 54%， 而 保留 这 些 代 码 得 到 的 错误 率 为 70%。 这 里 观察 到 的 一 个 有 趣 
现象 是 ， 这 些 留言 中 出 现 次 数 最 多 的 前 30 个 词 泗 盖 了 所 有 用 词 的 30% 。 
我 在 进行 测试 的 时 候 ，vocabList 的 大 小 约 为 3000 个 词 。 也 就 是 说 ， 词 
汇 表 中 的 一 小 部 分 单词 却 占 据 了 所 有 文本 用 词 的 一 大 部 分 。 产 生 这 种 
现象 的 原因 是 因为 语言 中 大 部 分 都 是 见 余 和 结构 辅助 性 内 容 。 男 一 个 
常用 的 方法 是 不 仅 移 除 高 频 词 ， 同 时 从 某 个 预定 词 表 中 移 除 结构 上 的 
辅助 词 。 该 词 表 称 为 停 用 词 表 (stop word list) ， 目 前 可 以 找到 许多 停 
用 词 表 (在 本 书写 作 期 间 ，http:/www.ranks.nVresources/stopwords.html 
上 有 一 个 很 好 的 多 语言 停 用 词 列 表 ) 。 


将 程序 清单 4-6 中 的 代码 加 入 到 bayes.py 文件 之 后 ， 可 以 通过 输入 
如 下 命令 在 Python 中 进行 测试 : 


>>> reload(bayes) 

«module 'bayes' from 'bayes.py'> 
>>>ny=feedparser.parse('http://newyork.craigslist.org/stp/index.rss') 
>>>sf=feedparser.parse('http://sfbay.craigslist.org/stp/index.rss') 
>>> vocabList, pSF, pNY=bayes.localWords(ny, sf) 

the error rate is: 0.1 

>>> vocabList, pSF, pNY=bayes.localwords(ny, sf) 


the error rate is: 0.35 


为 了 得 到 错误 率 的 精确 估计 ， 应 该 多 次 进行 上 述 实 验 ， 然 后 取 平 均 
值 。 这 里 的 错误 率 要 远 高 于 垃圾 邮件 中 的 错误 率 。 由 于 这 里 关注 的 是 
单词 概率 而 不 是 实际 分 类 ， 因 此 这 个 问题 倒 不 严重 。 可 以 通过 函数 
caclMostFred() 改变 要 移 除 的 单词 数 日 ， 然 后 观察 错误 率 的 变化 情 
it o 


4.7.2 “分析 数据 : 显示 地 域 相关 的 用 词 


可 以 先 对 癌 量 pSF 与 pDNY 进 行 排序 ， 然 后 按照 顺序 将 词 打印 出 来 。 下 面 
的 最 后 一 段 代码 会 完成 这 部 分 工作 。 DM 将 下 面 的 
代码 添加 到 文件 中 。 
程序 清单 4-7 ”最 具 表 征 性 的 词汇 显示 函数 
def getTopWords(ny, sf) : 
import operator 
vocabList, pV, p1V=localWords(ny, sf) 
topNY=[]; topSF=[] 
for i in range(len(pev)): 
if pOV[i] > -6.0 : topSF.append((vocabList[i], poV[i])) 
if piV[i] > -6.0 : topNY.append((vocabList[i],piV[i])) 
sortedSF = sorted(topSF, key=lambda pair: pair[1], reverse=True) 
print "SF**SE**SFE**SE**SE**SE**SE**SE**SE**SE**SE**SE**Sp**Sp** 
for item in sortedSF: 
print item[0] 
sortedNY = sorted(topNY, key-lambda pair: pair[1], reverse-True) 
print "NY**NY* *NY* *NY* *NY* *NY* *NY* *NY* *NY* *NY* *NY**NY**NY**NY **" 


for item in sortedNY: 


print item[0] 


程序 清单 4-7 中 的 函数 getTopwords() 使 用 两 个 RSS 源 作为 输入 ， 然 后 训 
练 并 测试 朴素 贝 叶 斯 分 类 器 ， 返 回 使 用 的 概率 值 。 然 后 创建 两 个 列表 
用 于 元 组 的 存储 。 与 之 前 返回 排名 最 高 的 X 个 单词 不 同 ， 这 里 可 以 返回 
大 于 某 个 羡 值 的 所 有 词 。 这 些 元 组 会 按照 它们 的 条 件 概率 进行 排序 。 


下 面 看 一 下 实际 的 运行 效果 ， 保 存 bayes.py 文 件 ， 在 Python 提示 和 人 符 下 输 
入 : 


>>> reload(bayes) 


«module 'bayes' from 'bayes.pyc'> 


>>> bayes.getTopWords(ny, sf) 


the error rate is: 0.2 


SF**SF**SF**SF**SF**SF* *SF**SF* *SF**SF* *SF**SF**SF**SF**SF**SF** 


love 


time 


will 


there 


send 


francisco 


female 


NY* *NY* *NY* *NY* *NY* *NY* *NY* *NY* *NY* *NY* *NY* *NY* *NY* *NY* *NY* *NY** 


friend 


people 
will 


single 


relationship 
play 


hope 


最 后 输出 的 单词 很 有 意思 。 值 得 注意 的 现象 是 ， 程 序 输出 了 大 量 的 停 
用 词 。 移 除 固定 的 信用 词 看 看 结 采 会 如 何 变 化 也 十 分 有 趣 。 依 我 的 经 
验 来 看 ， 这 样 做 的 话 ， 分 类 销 误 率 也 会 降低 。 
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对 于 分 类 而 言 ， 使 用 概率 有 时 要 比 使 用 硬 规则 更 为 有 效 。 贝 叶 斯 概率 
及 贝 叶 斯 准则 提供 了 一 种 利用 已 知 值 来 估计 未 知 概率 的 有 效 方法 。 


可 以 通过 特征 之 间 的 条 件 独立 性 假设 ， 降 低 对 数据 量 的 需求 。 独 立 性 
假设 是 指 一 个 词 的 出 现 概率 并 不 依赖 于 文档 中 的 其 他 词 。 当 然 我 们 也 
知道 这 个 假设 过 于 催 单 。 这 隋 是 之 所 以 称 为 补 素 贝 叶 斯 的 原因 。 尽 管 
条 件 独 立 性 假设 并 不 正确 ， 但 是 朴素 贝 叶 斯 仍然 是 一 种 有 效 的 分 类 


HE 


fi 


利用 现代 编程 语言 来 实现 朴素 贝 叶 斯 时 需要 堵 虑 很 多 实际 因素 。 下 海 
出 就 是 其 中 一 个 问题 ， 它 可 以 通过 对 概率 取 对 数 来 解决 。 词 袋 模型 在 
解决 文档 分 类 问题 上 比 词 集 模型 有 所 提高 。 还 有 其 他 一 些 方 面 的 改 
进 ， 比 如 说 移 除 停 用 词 ， 当 然 也 可 以 花 大 量 时 间 对 切 分 器 进 行 优化 。 


本 章 学 习 到 的 概率 理论 将 在 后 续 章 下 中 用 到 ， 另 外 本 章 也 给 出 了 有 关 
贝 叶 斯 概率 理论 全 面具 体 的 介绍 。 接 下 来 的 一 章 将 暂时 不 再 讨论 概率 
理论 这 一 话题 ， 介 绍 另 一 种 称 作 Logistic 回 归 的 分 类 方法 及 一 些 优化 算 


法 。 


5% ”Logistic 回 归 
本 章 内 容 


e Sigmoid 函 数 和 Logistic 回 归 分 类 器 
。 最 优化 理论 初步 

。 梯度 下 降 最 优化 算法 

。 数据 中 的 缺失 项 处 理 


这 会 是 激动 人 心 的 一 章 ， 因 为 我 们 将 首次 接触 到 最 优化 算法 。 仔 细 想 
想 束 会 发 现 ， 其 实 我 们 日 常生 活 中 巡 到 过 很 多 最 优化 问题 ， 比 如 如 何 
在 最 短 时 间 内 从 A 点 到 达 B 点 ? 如 何 投入 最 少 工作 量 却 获得 最 大 的 效 
Aio 如 何 设计 发 动机 使 得 油耗 最 少 而 功率 最 大 ? 可 见 ， 最 优化 的 作用 
十 分 强大 。 接 下 来 ， 我 们 介绍 儿 个 最 优化 算法 ， 并 利用 它们 训练 出 一 
个 非 线性 函数 用 于 分 类 。 


读者 不 熟悉 回归 也 没关系 ， 第 8 章 起 会 深入 介绍 这 一 主题 。 假 设 现在 有 
一 些 数据 点 ， 我 们 用 一 条 直线 对 这 些 点 进行 拟 合 (该 线 称 为 最 佳 拟 合 
直线 ) ， 这 个 拟 合 过 程 就 称 作 回归 。 利 用 Logistic 回 归 进 行 分 类 的 主要 
思想 是 : 根据 现 有 数据 对 分 类 边界 线 建立 回归 公式 ， 以 此 进行 分 类 。 
这 里 的 “回归 ”一 词 产 于 最 佳 拟 合 ， 表 示 要 找到 最 佳 拟 合 参数 集 ， 其 至 
后 的 数学 分 析 将 在 下 一 部 分 介绍 。 训 练 分 类 器 时 的 做 法 就 是 寻找 最 佳 
拟 合 参数 ， 使 用 的 是 最 优化 算法 。 接 下 来 介绍 这 个 二 值 型 输出 分 类 器 
的 数学 原理 。 


Logistic 回 归 的 一 般 过 程 


1. 收集 数据 ;采用 任意 方法 收集 数据 。 

. 准备 数据 : 由 于 需要 进行 距离 计算 ， 因 此 要 求 数据 类 型 为 数值 
型 。 另 外 ， 结 构 化 数据 格式 则 最 佳 。 

分 析 数 据 : 采用 任意 方法 对 数据 进行 分 析 。 

训练 算法 : 大 部 分 时 间 将 用 于 训练 ， 训 练 的 目的 是 为 了 找到 最 佳 
的 分 类 回归 系数 。 
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5. 测试 算法 : 一 旦 训练 步 又 完成 ， 分 类 将 会 很 快 。 
c. 使 用 算法 : 首先， 我 们 需要 一 些 输入 数据 ， 并 将 其 转换 成 对 应 的 


结构 化 数值 ; 接着 ， 基 于 训练 好 的 回归 系数 就 可 以 对 这 些 数 值 进 
行 简单 的 回归 计算 ， 判 定 它 们 属于 哪个 类 别 ; 在 这 之 后 ， 我 们 束 
可 以 在 输出 的 类 别 上 做 一 些 其 他 分 析 工 作 。 


本 章 首先 阐述 Logistic 回 归 的 定义 ， 然 后 介绍 一 些 最 优化 算法 ， 其 中 包 
括 基 本 的 梯度 上 升 法 和 一 个 改进 的 随机 梯度 上 升 法 ， 这 些 最 优化 算法 
将 用 于 分 类 器 的 训练 。 本 章 最 后 会 给 出 一 个 Logistic 回 归 的 实例 ， 预 测 
一 匹 病 马 是 否 能 被 治愈 。 


A 基于 Logistic 回 归 和 Sigmoid 函 数 的 分 


Logistic 回 归 

优点 : 计算 代价 不 高 ， 易 于 理解 和 实现 。 
Ws: 容易 从 拟 合 ， 分 类 精度 可 能 不 高 。 
适用 数据 类 型 ， 数值 型 和 标 称 型 数据 。 


我 们 想 要 的 函数 应 该 是 ， 能 接受 所 有 的 输入 然后 预测 出 类 别 。 例 如 ， 
在 两 个 类 的 情况 下 ， 上 述 函 数 输出 0 或 1° 或 许 读者 之 前 接触 过 具有 这 
种 性 质 的 函数 ， 该 函数 称 为 海 维 塞 德 阶 跃 事 数 (Heaviside step 
function) ， 或 者 直接 称 为 单位 阶 跃 画 数 。 然 而 ， 海 维 塞 德 阶 跃 函 数 的 
问题 在 于 : 该 画 数 在 跳跃 点 上 从 0 瞬间 跳跃 到 1， 这 个 瞬间 跳跃 过 程 有 
时 很 难处 理 。 对 好 ， 另 一 个 函数 也 有 类 似 的 性 质 :， 且 数学 上 更 易 处 
理 ， 这 就 是 Sigmoid 函 数 :。Sigmoid 函 数 具 体 的 计算 公式 如 下 : 


l 


us l+e™ 


1. 这 里 指 的 是 可 以 输出 0 或 者 1 的 这 种 性 质 。 一 一 译 者 注 


2. Sigmoid 函 数 是 一 种 MERE (step function) 。 在 数学 中 ， 如 果实 数 域 上 的 某 个 画 数 可 以 用 半 开 区 间 上 的 指示 画 数 的 有 限 次 线性 组 合 来 表示 ， 那 么 这 个 函数 就 是 阶 路 


函数 。 而 数学 中 指示 画 数 (indicator function) 是 定义 在 某 集合 X 上 的 函数 ， 表 示 其 中 有 哪些 元 素 属于 某 一 子 集 A。 一 一 译 者 注 


图 5-1 给 出 了 Sigmoid 函 数 在 不 同 坐 标尺 度 下 的 两 条 曲线 图 。 当 x 为 0 

时 ，Sigmoid 画 数值 为 0.5。 随 着 x 的 增 大 ， 对 应 的 Sigmoid 值 将 逼近 于 

1; 而 随 着 x 的 减 小 ，Sigmoid 值 将 逼近 于 0。 如 果 横 坐标 刻度 足够 大 
(图 5-1 下 图 ) , SigmoidEX Ack GRE TR E — T BT EXER AA o 


Sigmoid(x) 


Sigmoid(x) 
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图 5-1 MPERA PHySigmoidER2X Ed » LAA A-52l5, ix 
时 的 曲线 变化 较为 平滑 ， 下 图 横 坐 标的 尺度 足够 大 ， 可 以 看 到 ， 在 x = 
0i X Sigmoid KAA ERRANA 


因此 ， 为 了 实现 Logistic 回 归 分 类 器 ， 我 们 可 以 在 每 个 特征 上 乘 以 一 个 
回归 系数 ， 然 后 把 所 有 的 结 采 值 相 加 ， 将 这 个 总 和 代入 Sigmoid 函 数 
中 ， 进 而 得 到 一 个 范围 在 0~1 之 间 的 数值 。 最 后 ， 结 末 大 于 0.5 的 数据 家 
eon d ° 所 以 ，Logistic 回 归 也 可 以 被 看 成 是 
—f ra IT e 
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多 少 ? 如 何 确定 它们 的 大 小 ? 这 些 问 题 将 在 下 一 市 解答 。 


3. 将 这 里 的 weight 翻译 为 “回归 系数 "， 是 为 了 与 后 面 的 局 部 加 权 线 性 回归 中 的 “权重 ”一 词 区 分 开 来 ， 在 不 会 引起 混淆 的 时 候 也 会 简称 为 “系数 ”一 一 译 者 注 
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Sigmoid 函 数 的 输入 记 为 z， 由 下 面 公式 得 出 : 


三 二 WXo 十 WX 十 WX» Te + Warn 


WRASSE, EMANA = w'x。 它 表示 将 这 两 个 
数值 向 量 的 对 应 元 素 相 乘 然 后 全 部 加 起 来 即 得 到 z 值 。 其 中 的 向 量 x dx 
分 类 器 的 输入 数据 ， 向 量 w 也 就 是 我 们 要 找到 的 最 佳 参数 (系数 ) ， 

从 而 使 得 分 类 尽 可 能 地 精确 。 为 了 寻找 该 最 佳 参数 ， 需 要 用 到 最 优化 
理论 的 一 些 知识 。 


下 面 首先 介绍 梯度 上 升 的 最 优化 方法 ， 我 们 将 学 习 到 如 何 使 用 该 方法 
求 得 数据 集 的 最 佳 参 数 。 接 下 来 ， 展 示 如 何 绘制 梯度 上 升 法 产生 的 决 
策 边界 图 ， 该 图 能 将 梯度 上 升 法 的 分 类 效果 可 视 化 地 呈现 出 来 。 最 后 
我 们 将 学 习 随 机 梯度 上 升 蜡 法 ， 以 及 如 何 对 其 进行 修改 以 获得 更 好 的 
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5.2.1 梯度 上 升 法 

我 们 介绍 的 第 一 个 最 优化 算法 叫做 梯度 上 升 法 。 梯 度 上 升 法 基于 的 思 
想 是 ， 要 找到 某 画 数 的 最 大 值 ， 最 好 的 方法 是 沿 着 该 函数 的 梯度 方向 
探寻 。 如 果 梯 度 记 为 VY， 则 函数 f(x,y) 的 梯度 由 下 式 表 示 : 


( Of (x. y) ) 
m 23 4 Uk 
VI 5377 | art. y) 
\ dy 
这 是 机 器 学 习 中 最 易 造成 混淆 的 一 个 地 方 ， 但 在 数学 上 并 不 难 ， 需 要 
做 的 只 是 牢记 这 些 符号 的 意义 。 这 个 梯度 意味 着 要 沿 x 的 方向 移动 


Of (x. y) Of (x. y) 
Ox ”， 沿 y 的 方向 移动 ”中 o EB, ENZXfOuy) 必须 要 在 竺 计算 
的 点 上 有 定义 并 且 可 微 。 一 个 具体 的 函数 例子 见 图 5-2。 


梯度 上 升 


图 5-2 梯度 上 升 算法 到 达 每 个 点 后 都 会 重新 估计 移动 的 方向 。 从 P0 开 
始 ， 计 算 完 该 点 的 梯度 ， 画 数 就 根据 梯度 移动 到 下 一 点 P1。 在 P1 点 
梯度 再 次 被 重 浙 计 算 ， 并 沿 新 的 梯度 方向 移动 到 P2。 如 此 循环 迭代 ， 
yawned o 迭代 的 过 程 中 ， 梯 度 算 子 总 是 保证 我 们 能 选取 到 


图 5 2 中 的 梯度 上 升 算 法 沿 梯 度 方向 移动 了 一 步 。 可 以 看 到 ， 梯 度 算 子 

是 指向 函数 值 增长 最 快 的 方向 。 这 里 忆 说 的 是 移动 方向 MARE 
PIX 该 量 值 称 为 步 长 ， 记 做 % 。 用 向 量 来 表示 的 话 ， 梯 度 
I EGZBGATUSGUUU T : 


w=wtav, f(w) 
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数 达 到 某 个 指定 值 或 算法 达到 某 个 可 以 允许 的 误差 范围 。 


梯度 下 降 算法 
你 最 经 常 听 到 的 应 该 是 梯度 下 降 算 法 ， 它 与 这 里 的 梯度 上 升 算 法 


是 一 样 的 ， 只 是 公式 中 的 加 法 需要 变 成 减法 。 因 此 ， 对 应 的 公式 
可 以 写成 


w=wta, fiw) 


Lo SQ 而 梯度 下 降 算 法 用 来 求 函数 
y HX N o 


基于 上 面 的 内 容 ， 我 们 来 看 一 个 Logistic 回 归 分 类 器 的 应 用 例子 ， 从 图 
5-3 可 以 看 到 我 们 采用 的 数据 集 。 


eee Class 1 
@ Class 0 


图 5-3 一 个 简单 数据 集 ， 下 面 将 采用 梯度 上 升 法 找到 Logistic 回 归 分 类 
器 在 此 数据 集 上 的 最 佳 回 归 系 数 


5.2.2 ”训练 算法 : 使 用 梯度 上 升 找 到 最 佳 参 数 

图 5-3 中 有 100 个 样本 点 ， 每 个 点 包含 两 个 数值 型 特征 : X1 和 X2。 在 此 
数据 集 上 ， 我 们 将 通过 使 用 梯度 上 升 法 找到 最 佳 回归 系数 ， 也 束 是 拟 
合 出 Logistic 回 归 模 型 的 最 佳 参 数 。 


梯度 上 升 法 的 伪 代 码 如 下 : 


= 


系数 初始 化 为 1 


f^ [n 


计算 整个 数据 集 的 梯度 


使 用 `alpha x gradient ` 更 新 回归 系数 的 向 量 


归 系 数 
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下 面 的 代码 是 梯度 上 升 算法 的 具体 实现 。 为 了 解 实 际 效果 ， 打 开 文 本 
编辑 器 并 创建 一 个 名 为 logRegres.py 的 文件 ， 输 入 下 列 代码 : 


程序 清单 5-1 “logistic 回归 梯度 上 升 优化 算法 


def loadDataSet(): 


dataMat - []; labelMat - [] 


fr - open('testSet.txt') 


for line in fr.readlines(): 


lineArr - line.strip().split() 


dataMat.append([1.0, float(lineArr[0]), float(lineArr[1])]) 


labelMat.append(int(lineArr[2])) 


return dataMat, labelMat 


def sigmoid(inX): 


return 1.0/(1+exp(-inx)) 


def gradAscent(dataMatIn, classLabels): 


= 


# 9 (以 下 两 行 ) 转换 为 NumPy 和 矩阵 数据 类 型 


dataMatrix = mat(dataMatIn) 


labelMat - mat(classLabels).transpose() 


m,n = shape(dataMatrix) 


alpha - 0.001 


maxCycles - 500 


weights - ones((n,1)) 


for k in range(maxCycles): 


#@ (以 下 三 行 ) 矩阵 相 乘 


h = sigmoid(dataMatrix*weights) 
error = (labelMat - h) 
weights = weights + alpha * dataMatrix.transpose()* error 


return weights 


程序 清单 5-1 的 代码 在 开头 提供 了 一 个 便利 函数 loadpataset() ， 它 的 主 
要 功能 是 打开 文本 文件 testset .txt 并 逐 行 读 取 。 每 行 前 两 个 值 分 别 是 
X1 和 X2， 第 三 个 值 是 数据 对 应 的 类 别 标签 。 此 外 ， 为 了 方便 计算 ， 该 
函数 还 将 X0 的 值 设 为 1.0。 接 下 来 的 函数 是 5.2 下 提 到 的 函数 sigmoid() 


梯度 上 升 算法 的 实际 工作 是 在 函数 gradAscent() 里 完成 的 ， 该 函数 有 
两 个 参数 。 第 一 个 参数 是 dataMatIn ， 它 是 一 个 2 维 NumPy 数 组 ， 每 列 
分 别 代 表 每 个 不 同 的 特征 ， 每 行 则 代表 每 个 训练 样本 。 我 们 现在 采用 


的 是 100 个 样本 的 简单 数据 集 ， 它 包含 了 两 个 特征 X1 和 X2， 再 加 上 第 0 
维特 征 X0， 所 以 dataMath 里 存放 的 将 是 100x3 的 矩阵 。 在 @ 人 处， 我 们 获 
得 输入 数据 并 将 它们 转换 成 NumPy 和 矩 孟 。 这 是 本 书 首次 使 用 NumPy 矩 
阵 ， 如 果 你 对 和 矩阵 数学 不 太 熟 悉 ， 那 么 一 些 运算 可 能 就 会 不 易 理 解 。 
比如 ，NumPy 对 2 维 数组 和 移 阵 都 提供 一 些 操作 支持， 如果 刘 消 了 数据 
类 型 和 对 应 的 操作 ， 执 行 结果 将 与 预期 截然 不 同 。 对 此 ， 本 书 附 录 人 A 给 
出 了 对 NumPy 和 矩阵 的 介绍 。 第 二 个 参数 是 类 别 标签 ， 它 是 一 个 1x100 的 
行 回 量 。 为 了 便于 抢 阵 运算 ， 需 要 将 该 行 癌 量 转换 为 列 辐 量 ， 做 法 是 
将 原 向 量 转 置 ， 再 将 它 赋值 给 labelMat 。 接 下 来 的 代码 是 得 到 矩阵 大 
小 ， 再 设置 一 些 梯度 上 升 算 法 所 需 的 参数 。 


变量 alpha X [8] HU ENEE SIBI A K, maxCycles EJAZ 9 TEfor 循环 
ARERR, KbkIBIVIZREERSIBIU ZR o ERAN ee, TEOMA 
算是 矩阵 运算 。 变 量 h 不 是 一 个 数 而 是 一 个 列 同 量 ， 列 向 量 的 元 素 个 数 
等 于 样本 个 数 ， 这 里 是 100。 对 应 地 ， 运 算 dataMatrix * weights 代表 
的 不 是 一 次 乘积 计算 ， 事实 上 该 运算 包含 了 300 次 的 乘积 。 

最 后 还 需 说 明 一 点 ， 你 可 能 对 四 中 公式 的 前 两 行 觉得 陌生 。 此 处 本 书 
略 去 了 一 个 简单 的 数学 推导 ， 我 把 它 留 给 有 兴趣 的 读者 。 定 性 地 说 ， 
这 里 是 在 计算 真实 类 别 与 预测 类 别 的 差 值 ， 接 下 来 束 是 按照 该 差 值 的 
方向 调整 回归 系数 。 

接 下 来 看 看 实际 效果 ， 打 开 文 本 编辑 器 ， 添 加 程序 清单 5-1 的 代码 。 


在 Python 提示 符 下 ， 敲 入 下 面 的 代码 ; 


>>> import logRegres 


>>> dataArr,labelMat-logRegres.loadDataSet() 


>>> logRegres.gradAscent(dataArr, labelMat) 


matrix([[ 4.12414349], 


[ 0.48007329], 


[-0.6168482 ]]) 


5.2.3 分析 数据 : 画 出 决策 边界 

上 上面 已 经 解 出 了 一 组 回归 系数 ， 它 确定 了 不 同类 别 数据 之 间 的 分 隔 
线 。 那 么 怎样 能 画 出 该 分 隅 线 ， 从 而 使 得 优化 的 过 程 便 于 理解 呢 ? 下 
面 将 解决 这 个 问题 ,打开 1logRegres.py 并 添加 如 下 代码 。 


程序 清单 5-2” 画 出 数据 集 和 logistic 回 归 最 佳 拟 合 直线 的 画 数 


def plotBestFit(wei): 


import matplotlib.pyplot as plt 


weights - wei.getA() 


dataMat, labelMat=loadDataSet ( ) 


dataArr = array(dataMat ) 


n = shape(dataArr)[0] 


xcordi = []; ycord1 = [] 


xcord2 = []; ycord2 = [] 


for i in range(n): 


if int(labelMat[i])-- 1: 


xcordi.append(dataArr[i,1]); ycordi.append(dataArr[i,2]) 


else: 


xcord2.append(dataArr[i,1]); ycord2.append(dataArr[i,2]) 


fig - plt.figure() 


ax = fig.add subplot(111) 


ax.scatter(xcord1, ycordi, s=30, c='red', marker='s') 
s=30, c='green') 


ax.scatter(xcord2, ycord2, 


x = arange(-3.0, 3.0, 0.1) 


#0 最 佳 拟 合 直线 


y = (-weights[0]-weights[1]*x)/weights[2] 
ax.plot(x, y) 
plt.xlabel('X1'); plt.ylabel('X2'); 


plt.show() 


程序 清单 5-2 中 的 代码 是 直接 用 Matplotlib 画 出 来 的 。 唯 一 要 指出 的 是 ， 
OLE I sigmoid 函数 为 0。 回 忆 5.2 节 ，0 是 两 个 类 别 〈 类 别 1 和 类 别 
0) 的 分 界 处 。 因 此 ， 我 们 设 定 0= wx,+wx+wx,， 然 后 解 出 X2 和 
X1 的 关系 式 ( 即 分 隔 线 的 方程 ， 注 意 X0=1) 。 


运行 程序 清单 5-2 的 代码 ， 在 Python 提 示 符 下 输入 : 
>>> reload(logRegres) 
«module 'logRegres' from 'logRegres.py'> 


>>> logRegres.plotBestFit(weights.getA()) 


输出 的 结果 如 图 5-4 所 示 。 


图 5-4 ”梯度 上 升 算法 在 500 次 迭代 后 得 到 的 Logistic 回 归 最 佳 拟 合 直线 


这 个 分 类 结果 相当 不 和 错 ， 从 图 上 看 只 错 分 了 两 到 四 个 点 。 但 是 ， 尺 管 
例子 简单 且 数 据 集 很 小 ， 这 个 方法 却 需要 大 量 的 计算 (300 次 乘法 ) 。 
因此 下 一 节 将 对 该 算法 稍 作 改进 ， 从 而 使 它 可 以 用 在 真实 数据 集 上 。 


5.2.4 训练 算法 : 随机 梯度 上 升 


梯度 上 升 算法 在 每 次 更 新 回归 系数 时 都 需要 遍历 整个 数据 集 ， 该 方法 
在 处 理 100 个 左右 的 数据 集 时 尚 可 ， 但 如 果 有 数 十 亿 样 本 和 成 干 上 万 的 
特征 ， 那 么 该 方法 的 计算 复杂 度 束 太 高 了 。 一 种 改进 方法 古 一 次 仅 用 
一 个 样本 点 来 更 新 回归 系数 ， 该 方法 称 为 随机 梯度 上 升 算法 。 由 于 可 
以 在 新 样本 到 来 时 对 分 类 器 进 行 增 量 式 更 新 ， 因 而 随机 梯度 上 升 算法 


是 一 个 在 线 学 习 算 法 。 与 “在 线 学 习 ” 相 对 应 ， 一 次 处 理 所 有 数据 被 称 
作 是 “ 批 处 理 ”。 


随机 梯度 上 升 算 法 可 以 写成 如 下 的 伪 代 码 : 


所 有 回归 系数 初始 化 为 1 


对 数据 集中 每 个 样本 


计算 该 样本 的 梯度 


使 用 alpha x gradient 更 新 回归 系数 值 


归 系 数值 


Izd 
A 
H 


伪 代 码 最 后 一 行 应 顶 格 ， 原 文 错误 ， 已 修改 
以 下 是 随机 梯度 上 升 算 法 的 实现 代码 。 
程序 清单 5-3 ”随机 梯度 上 升 算法 
def stocGradAscento(dataMatrix, classLabels): 
m,n = shape(dataMatrix) 
alpha - 0.01 
weights - ones(n) 
for i in range(m): 
h = sigmoid(sum(dataMatrix[i]*weights)) 
error = classLabels[i] - h 


weights = weights + alpha * error * dataMatrix[i] 


return weights 


可 以 看 到 ， 随 机 梯度 上 升 算法 与 梯度 上 升 算 法 在 代码 上 很 相似 ， 但 也 
有 一 些 区 别 : 第 一 ， 后 者 的 变量 hn 和 误差 error Mews, MAAS 
是 数值 ;第 二 ， 前 者 没有 和 矩阵 的 转换 过 程 ， 所 有 变量 的 数据 类 型 都 是 
NumPy 数 组 。 


为 了 验证 该 方法 的 结果 ， 我 们 将 程序 清单 5-3 的 代码 添加 到 
logRegres.py 中 ， 并 在 Python 提 示人 符 下 输入 如 下 命令 : 


>>> from numpy import * 

>>> reload(logRegres) 

<module 'logRegres' from 'logRegres.py'> 

>>> dataArr,labelMat-logRegres.loadDataSet() 

>>> weights-logRegres.stocGradAscentO(array(dataArr), labelMat) 

>>> logRegres.plotBestFit(weights) 
执行 完毕 后 将 得 到 图 5-5 所 示 的 最 佳 拟 合 直线 图 ， 该 图 与 图 5-4 有 一 些 相 
似 之 处 。 可 以 看 到 ， 拟 合 出 来 的 直线 效果 还 不 错 ， 但 并 不 像 图 5-4 那 样 
完美 。 这 里 的 分 类 器 错 分 了 三 分 之 一 的 样本 。 
直接 比较 程序 清单 5-3 和 程序 清单 5-1 的 代码 结果 是 不 公平 的 ， 后 者 的 结 
车 是 在 整个 数据 集 上 迭代 了 500 次 才 得 到 的 。 一 个 判断 优化 算法 优 劣 的 
可 靠 方法 是 看 它 是 否 收 合 ， 也 就 是 说 参数 是 否 达 到 了 稳定 值 ， 是 否 还 
会 不 断 地 变化 ? 对 此 ， 我 们 在 程序 清单 5-3 中 随机 梯度 上 升 算法 上 做 了 


些 修改 ， 使 其 在 整个 数据 集 上 运行 200 次 。 最 终 绘制 的 三 个 回归 系数 的 
变化 情况 如 图 5-6 所 示 。 
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图 5-5 ”随机 梯度 上 升 算法 在 上 述 数据 集 上 的 执行 结果 ， 最 佳 拟 合 直线 
并 非 最 佳 分 类 线 
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图 5-6 iSVR LAR, LAGER DORT PARRA 
代 次 数 的 关系 图 。 回 归 系 数 经 过 大 量 和 迭代 才能 达到 稳定 值 ， 并 且 仍 然 
有 局 部 的 波动 现象 


图 5-6 展 示 了 随机 梯度 上 升 算法 在 200 次 迭代 过 程 中 回归 系数 的 变化 情 
况 。 其 中 的 系数 2， 也 束 古 图 5-5 中 的 X2 只 经 过 了 50 次 类 代 束 达 到 了 稳 
定 值 ， 但 系数 1 和 0 则 需要 更 多 次 的 友人 代 。 另 外 值得 注意 的 是 ， 在 大 的 
波动 停止 后 ， 还 有 一 些小 的 周期 性 波动 。 不 难 理解 ， 产 生 这 种 现象 的 
原因 是 存在 一 些 不 能 正确 分 类 的 样本 点 (数据 集 并 非 线 性 可 分 ， 在 
每 次 碗 代 时 会 引发 系数 的 剧烈 改变 。 我 们 期 户 算 法 能 避免 来 回流 动 ， 
从 而 收敛 到 某 个 值 。 另 外 ， 收 敛 速 度 也 需要 加 快 。 


对 于 图 5-6 存 在 的 问题 ， 可 以 通过 修改 程序 清单 5-3 的 随机 梯度 上 升 算法 
来 解决 ， 具 体 代码 如 下 : 


程序 清单 5-4 ”改进 的 随机 梯度 上 升 算 法 


def stocGradAscenti(dataMatrix, classLabels, numIter=150): 
m,n = shape(dataMatrix) 
weights - ones(n) 
for j in range(numIter): dataIndex = range(m) 


for i in range(m): 


49 ”alpha 每 次 迭代 时 需要 调整 


alpha = 4/(1.0+j+i)+0.01 


#@ ”随机 选取 更 新 


randIndex = int(random.uniform(0, len(dataIndex) ) ) 

h = sigmoid(sum(dataMatrix[randIndex]*weights)) 

error = classLabels[randIndex] - h 

weights = weights + alpha * error * dataMatrix[randIndex] 
del(dataIndex[randIndex] ) 


return weights 


程序 清单 5-4 与 5-3 类 似 ， 但 增加 了 两 处 代码 来 进行 改进 。 


第 一 处 改进 在 @ 人 处。 一 方面 ，alpha 在 每 次 迭代 的 时 候 都 会 调整 ， 这 会 
缓解 图 5-6 上 的 数据 波动 或 者 高 频 波 动 。 另 外 ， 虽 然 alpha 会 随 着 适 代 次 
数 不 断 减 小 ， 但 永远 不 会 减 小 到 0， 这 是 因为 @ 中 还 存在 一 个 常数 项 。 
必须 这 样 做 的 原因 是 为 了 保证 在 多 次 碗 代 之 后 新 数据 仍然 具有 一 定 的 
影响。 如 末 要 处 理 的 问题 是 动态 变化 的 ， 那 么 可 以 适当 加 大 上 述 第 数 


项 ， 来 确保 新 的 值 获得 更 大 的 回归 系数 。 另 一 点 值得 注意 的 是 ， 在 降 
低 alpha 的 函数 中 ，alpha 每 次 减少 1/(j+i) ， 其 中 j ERRA, i 是 样 
本 点 的 下 标 :。 这 样 当 j<<max(i) 时 ，alpha 就 不 是 严格 下 降 的 。 和 避免 参 
数 的 严格 下 降 也 常见 于 模拟 退火 算法 等 其 他 优化 算法 中 。 


1. 要 注意 区 分 这 里 的 下 标 与 样本 编号 ， 编 号 表示 了 样本 在 矩阵 中 的 位 置 (代码 中 为 randIndex ) ， 而 这 里 的 下 标 表 示 本 次 迭代 中 第 i 个 选 出 来 的 样本 。 一 一 译 者 注 


程序 清单 5-4 第 二 个 改进 的 地 方 在 @ 处 ， 这 里 通过 随机 选取 样本 来 更 新 
回归 系数 。 这 种 方法 将 减少 周期 性 的 波动 (如 图 5-6 中 的 波动 ) 。 具 体 
实现 方法 与 第 3 章 类 似 ， 这 种 方法 每 次 随机 从 列表 中 选 出 一 个 值 ， 然 后 
从 列表 中 删 掉 该 值 (再 进行 下 一 次 送 代 ) 

此 外 ， 改 进 算法 还 增加 了 一 个 迭代 次 数 作为 第 3 个 参数 。 如 果 该 参数 没 
有 给 定 的 话 ， 算 法 将 默认 迄 代 150 次 。 如 果 给 是， 那么 算法 将 按照 狐 的 
参数 值 进行 大 代 。 


与 stocGradAscent1() 类 似 ， 图 5-7 显 示 了 每 次 迭代 时 各 个 回归 系数 的 变 
化 情况 。 
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图 5-7 “使 用 样本 随机 选择 和 alpha 动 态 减 少 机 制 的 随机 梯度 上 升 算法 
stocGradAscent1() 所 生成 的 系数 收敛 示意 图 。 该 方法 比 采 用 固定 
alpha 的 方法 收敛 速度 更 快 


比较 图 5-7 和 图 5-6 可 以 看 到 两 点 不 同 。 第 一 点 是 ， 图 5-7 中 的 系数 没有 
像 图 5-6 里 那样 出 现 周期 性 的 波动 ， 这 归功 于 stoc6radAscent1() 里 的 样 
本 随机 选择 机 制 ， 第 二 点 是 ， 图 5-7 的 水 平 轴 比 图 5-6 短 了 很 多 ， 这 是 由 
于 stocGradAscent1() 可 以 收敛 得 更 快 。 这 次 我 们 仅仅 对 数据 集 做 了 20 
次 遍历 ， 而 之 前 的 方法 是 500 次 。 


下 面 看 看 在 同一 个 数据 集 上 的 分 类 效果 。 将 程序 清单 5-4 的 代码 添加 到 
logRegres.py 文件 中 ， 并 在 Python 提示 符 下 输入 : 


>>> reload(logRegres) 


«module 'logRegres' from 'logRegres.py'> 


>>> dataArr, labelMat=logRegres.loadDataSet( ) 


>>> weights-logRegres.stocGradAscenti(array(dataArr), labelMat) 


>>> logRegres.plotBestFit(weights) 


程序 运行 结束 之 后 应 该 可 以 看 到 与 图 5-8 类 似 的 结果 图 。 该 分 隔 线 达到 
了 与 GradientAscent() 差不多 的 效果 ， 但 是 所 使 用 的 计算 量 更 少 e 
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图 5-8 ”使 用 改进 的 随机 梯度 上 升 算法 得 到 的 系数 


默认 迭代 次 数 是 150， 可 以 通过 stocGradAscent() 的 第 3 个 参数 来 对 此 
进行 修改 ， 例 如 : 


>>> weights-logRegres.stocGradAscenti(array(dataArr),labelMat, 500) 


目前 ， 我 们 已 经 学 习 了 几 个 优化 算法 ， 但 还 有 很 多 优化 算法 值得 探 

讨 ， 所 对 这 方面 已 有 大 量 的 文献 可 供 参 考 。 男 外 再 说 明 一 下 ， 和 针对 给 
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迄今 为 止 我 们 分 析 了 回归 系数 的 变化 情况 ， 但 还 没有 达到 本 章 的 最 终 
目标 ， 即 完成 具体 的 分 类 任务 。 下 一 市 将 使 用 随机 梯度 上 升 算法 来 解 
决 病 马 的 生死 预测 问题 。 


5.3 “示例 : 从 疝气 病症 预测 病 马 的 死亡 率 


本 世 将 使 用 Logistic 回 归来 预测 愚 有 疝 病 的 马 的 存活 问题 。 这 里 的 数据 ， 
包含 368 个 样本 和 28 个 特征 。 我 并 非 育 马 专 家 ， 从 一 些 文献 中 了 解 到 ， 
疝 病 是 搞 述 马 下 肠 痛 的 术语 。 然 而 ， 这 种 病 不 一 定 产 目 马 的 胃 胸 问 
题 ， 其 他 问题 也 可 能 引发 马 阁 病 。 该 数据 集中 包含 了 医院 检测 马 疝 病 
A a a 
AFI ° 


1. 数据 集 来 自 2010 年 1 月 11 日 的 UCI 机 器 学 习 数据 库 ( http://archive.ics.uci.edu/ml/datasets/Horse+ 


olic )。 该 数据 最 早 由 加 拿 大 安大略 省 圭 尔 夫 大 学 计算 机 系 的 Mary McLeish 


和 Matt Cecile 收 集 。 


示例 : 使 用 Logistic 回 归 估 计 马 疝 病 的 死亡 率 


1. 收集 数据 : 给 定数 据 文件 。 

2. 准备 数据 : 用 Python 解析 文本 文件 并 填充 缺失 值 。 

3. 分 析 数 据 : 可视化 并 观察 数据 。 

4. 训练 算 法 : 使 用 优化 算法 ， 找 到 最 佳 的 系数 。 

5. 测试 算法 .为 了 量化 回归 的 效果 ， 和 需要 观察 错误 率 。 根 据 错误 率 
决定 是 否 回 退 到 训练 阶段 ， 通 过 改变 迭代 的 次 数 和 步 长 等 参数 来 
得 到 更 好 的 回归 系数 。 


6. 使 用 算法 : 实现 一 个 简单 的 命令 行程 序 来 收集 马 的 症状 并 输出 预 
测 结 采 并 非 难事 ， 这 可 以 做 为 留 给 读者 的 一 道 习题 。 


另外 需要 说 明 的 是 ， 除 了 部 分 指标 主观 和 难以 测量 之 外 ， 该 数据 集 还 
存在 一 个 问题 ， 数 据 集 中 有 30% 的 数据 值 是 缺失 的 。 下 面 将 自 先 介绍 如 
何 处 理 数据 集中 的 数据 缺失 问题 ， 然 后 再 利用 Logistic 回 归 和 随机 梯度 
上 升 算法 来 预测 病 马 的 生死 。 


5.3.1 ”准备 数据 处 理 数据 中 的 缺失 值 


数据 中 的 缺失 值 是 个 非常 坏 手 的 问题 ， 有 很 多 文献 都 致力 于 解决 这 个 
问题 。 那 么 ， 数 据 缺 失 究竟 带 来 了 什么 问题 ? 假设 有 100 个 样本 和 20 个 
特征 ， 这 些 数据 部 是 机 妖 收 集 回来 的 。 寿 机 器 上 的 某 个 传感器 损坏 导 
致 一 个 特征 无 效 时 该 怎么 办 ? 此 时 是 否 要 扔 掉 整 个 数据 ? 这 种 情况 
下 ， 男 外 19 个 特征 起 么 办 ? 它们 是 否 还 可 用 ? 管 案 是 肯定 的 。 因 为 有 
时 候 数据 相当 昂 贯 ， 扔 掉 和 重新 获取 都 是 不 可 取 的 ， 所 以 必须 采用 一 
些 方法 来 解决 这 个 问题 。 


下 面 给 出 了 一 些 可 选 的 做 法 : 


。 使 用 可 用 特征 的 均值 来 填补 缺失 值 ; 

。 使 用 特殊 值 来 填补 缺失 值 ， 如 -1; 

。 忽略 有 缺失 值 的 样本 ; 

。 使 用 相似 样本 的 均值 添补 缺失 值 ; 

。 使 用 男 外 的 机 器 学 习 算 法 预测 缺失 值 。 


现在 ， 我 们 对 下 一 市 要 用 的 数据 集 进行 预 处 理 ， 使 其 可 以 顺利 地 使 用 
分 类 算法 。 在 预 处 理 阶段 需要 做 两 件 事 : 第 一 ， 所 有 的 缺失 值 必须 用 
一 个 实数 值 来 奉 换 ， 因 为 我 们 使 用 的 NumPy 数 据 类 型 不 允许 包含 缺失 
值 。 这 里 选择 实数 0 来 蔡 换 所 有 缺失 值 ， 愉 好 能 适用 于 Logistic 回 归 。 原 
因 在 于 ， 我 们 需要 的 是 一 个 在 更 新 时 不 会 影响 系数 的 值 。 回 归 系 数 的 
更 新 公式 如 下 : 


weights = weights + alpha * error * dataMatrix[randIndex 


v MEE 的 某 特征 对 应 值 为 0， 那 么 该 特征 的 系数 将 不 做 更 新 ， 


weights - weights 


男 外 ， 由 于 sigmoid(9)=9.5 ， 即 它 对 结果 的 预测 不 具有 任何 倾向 性 ， 
因此 上 述 做 法 也 不 会 对 误 兰 项 造成 任何 影响 。 基 于 上 述 原 因 ， 将 缺失 
值 用 0 代替 既 可 以 保留 现 有 数据 ， 也 不 需要 对 优化 算法 进行 修改 。 此 
外 ， 该 数据 集中 的 特征 取 值 一 般 不 为 0， 因 此 在 某 种 意义 上 说 它 也 满 
足 “ 特 殊 值 " 这 个 要 求 。 


预 处 理 中 做 的 第 二 件 事 是 ， 如 来 在 测试 数据 集中 发 现 了 一 条 数据 的 类 
别 标 铭 已 经 缺失 ， 那 么 我 们 的 人 镜 单 做 法 是 将 该 条 数据 丢弃 。 这 是 因为 
类 别 标签 与 特征 不 同 ， 很 难 确 定 采 用 某 个 合适 的 值 来 蔡 换 。 采 用 
Logistic 回 归 进 行 分 类 时 这 种 做 法 是 合理 的 ， 而 如 琳 采 用 类 似 kNN 的 方 
TABLA BERNAL AT ° 


原始 的 数据 集 经 过 预 处 理 之 后 保存 成 两 个 文件 : horseColicTest.txt 

和 horsecolicTraining.txt 。 如 果 想 对 原始 数据 和 预 处 理 后 的 数据 做 个 
比较 ， 可 以 在 http://archive.ics.uci.edu/ml/datasets/Horse+Colic {Hl X+ 
数据 。 


现在 我 们 有 一 个 “干净 ?可 用 的 数据 集 和 一 个 不 错 的 优化 算法 ， 下 面 将 
把 这 些 部 分 融合 在 一 起 训练 出 一 个 分 类 严 ， 然 后 利用 该 分 类 融 来 预测 
病 马 的 生死 问题 


5.3.2 ”测试 算法 用 Logistic 回 归 进 行 分 类 


本 章 前 面 儿 节 介 绍 了 优化 算法 ， 但 目前 为 止 还 没有 在 分 类 上 做 任何 实 
际 答 试 。 使 用 Logistic 回 归 方法 进行 分 类 并 不 需要 做 很 多 工作 ， 所 需 做 
的 只 是 把 测试 集 上 每 个 特征 回 量 乘 以 最 优化 方法 得 来 的 回归 系数 ， 再 
将 该 乘积 结果 求 和 ， 最 后 输入 到 Sigmoid 函 数 中 即 可 。 如 果 对 应 的 
Sigmoid 值 大 于 0.5 束 预测 类 别 标签 为 1， 否 则 为 0。 


下面 看 看 实际 运行 效果 ， 打 开 文 本 编 错 着 并 将 下 列 代码 添加 到 


logRegres.py 文件 中 。 


程序 清单 5-5 logistic 回 归 分 类 函数 


def classifyVector(inX, weights): 


prob = sigmoid(sum(inX*weights)) 


if prob » 0.5: return 1.0 


else: return 0.0 


def colicTest(): 


frTrain - open('horseColicTraining.txt') 


frTest - open('horseColicTest.txt') 


trainingSet - []; trainingLabels - [] 


for line in frTrain.readlines(): 


currLine = line.strip().split('\t') 


lineArr =[] 


for i in range(21): 


lineArr.append(float(currLine[i])) 


trainingSet.append(lineArr) 


trainingLabels.append(float(currLine[21])) 


trainweights = stocGradAscenti(array(trainingSet), trainingLabels, 500) 


errorCount - 0; numTestVec - 0.0 


for line in frTest.readlines(): 


numTestVec += 1.0 


currLine = line.strip().split('\t') 


lineArr =[] 


for i in range(21): 


lineArr.append(float(currLine[i])) 


if int(classifyVector(array(lineArr), trainWeights))!= 


int(currLine[21]): 


errorCount += 1 


errorRate - (float(errorCount)/numTestVec) 


print "the error rate of this test is: %f" % errorRate 


return errorRate 


def multiTest(): 


numTests = 10; errorSum=0.0 


for k in range(numTests): 


errorSum += colicTest() 


print "after %d iterations the average error rate is:%f" % (numTests, errors 


um/float(numTests)) 


程序 清单 5-5 的 第 一 个 函数 是 classifyvector() ， 它 以 回归 系数 和 特征 
向 量 作 为 输入 来 计算 对 应 的 Sigmoid 值 。 如 果 Sigmoid 值 大 于 0.5 函 数 返 
回 1， 人 否则 返回 0。 


接 下 来 的 函数 是 colicTest() ， 是 用 于 打开 测试 集 和 训练 集 ， 并 对 数据 
进行 格式 化 处 理 的 函数 。 该 函数 下 先导 入 训练 集 ， 同 前 面 一 样 ， 数 据 
的 最 后 一 列 仍然 是 类 别 标签 。 数 据 最 初 有 三 个 类 别 标签 ， 分 别 代表 马 
的 三 种 情况 :“ 仍 存活 *、“ 已 经 死亡 "和 “已 经 安乐 死 *。 这 里 为 了 方便 ， 
将 “已 经 死亡 "和 “已 经 安乐 死 * 合 并 成 “未 能 存活 ”这 个 标签 。 数 据 导入 
之 后 ， fi n DA f FH ERZ s tocGradAscent1( ) 来 计算 回归 系数 向 量 8 这 里 
可 以 自由 设 定 迭 代 的 次 数 ， 例 如 在 训练 集 上 使 用 500 次 迭代 ， 实 验 结 
表明 这 比 默 认 友 代 150 次 的 效果 更 好 。 在 系数 计算 完成 之 后 ， 导 入 测试 
集 并 计算 分 类 错误 率 。 整 体 看 来 ，colicTest() 具有 完全 独立 的 功能 ， 
多 次 运行 得 到 的 结 采 可 能 稍 有 不 同 ， 这 是 因为 其 中 有 随机 的 成 分 在 里 
面 。 如 果 在 stocGradAscent1() 芳 数 中 回归 系数 已 经 完全 收 全 ， 那 么 结 
果 才 将 是 确定 的 。 


最 后 一 个 函数 是 multiTest() ， 其 功能 是 调用 函数 colicTest(() 10 次 并 
求 结果 的 平均 值 。 下 面 看 一 下 实际 的 运行 效果 ， 在 Python 提示 符 下 输 
入 : 


>>> reload(logRegres) 


«module 'logRegres' from 'logRegres.py'» 


>>> logRegres.multiTest() 


the error rate of this test is: 0.358209 


the error rate of this test is: 0.432836 


the error rate of this test is: 0.373134 


the error rate of this test is: 0.298507 


the error rate of this test is: 0.313433 


after 10 iterations the average error rate is: 0.353731 


从 上 面 的 结果 可 以 看 到 ，10 次 迭代 之 后 的 平均 销 误 率 为 359%。 事 实 上 ， 
这 个 结果 并 不 差 ， 因 为 数据 集 有 30% 的 数据 已 经 缺失 。 当 然 ， 如 果 调 整 
colicTest() 中 的 迭代 次 数 和 stochGradAscent1() 中 的 步 长 ， 平 均 错 误 
率 可 以 降 到 20% 左 右 。 第 7 章 中 我 们 还 会 再 次 使 用 到 这 个 数据 集 。 


5.4 ”本章 小 结 


Logistic 回 归 的 目的 是 寻找 一 个 非 线 性 芳 数 Sigmoid 的 最 住 拟 合 参数 ， 求 
解 过 程 可 以 由 最 优化 站 法 来 完成 。 在 最 优化 算法 中 ， 最 第 用 的 束 古 裤 
度 上 升 算法 ， 而 梯度 上 升 算法 又 可 以 简化 为 随机 梯度 上 升 算法 。 


随机 梯度 上 升 算法 与 梯度 上 升 算法 的 效果 相当 ， 但 占用 更 少 的 计算 资 
源 。 此 外 ， 随 机 梯度 上 升 是 一 个 在 线 算法 ， 它 可 以 在 新 数据 到 来 时 就 
完成 参数 更 新 ， 而 不 需要 重新 读 取 整个 数据 集 来 进行 批 处 理 运算 。 


机 妖 学 习 的 一 个 重要 问题 束 是 如 何 处 理 缺失 数据 。 这 个 问题 没有 标准 
SO URSI: 
缺点 o 


下 一 章 将 介绍 与 Logistic 回 归 类 似 的 男 一 种 分 类 算法 .支持 向 量 机 ， 它 
被 认为 是 目前 最 好 的 现成 的 算法 之 一 。 


第 6 章 NAB 


本 章 内 容 


。 简单 介绍 支持 向 量 机 
。 利 用 SMO 进 行 优化 
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“由 于 理解 支持 向 量 机 (Support Vector Machines, SVM) 需要 掌握 一 
些 理论 知识 ， 而 这 对 于 读者 来 说 有 一 定 难度 ， 于 是 建议 读者 直接 下 载 
LIBSVM 使 用 。" 我 发 现 ， 在 介绍 SVM 时 ， 不 止 一 本 书 都 采用 了 以 上 这 
种 模式 。 本 书 并 不 打算 沿用 这 种 模式 。 我 认为 ， 如 果 对 SVM 的 理论 不 
其 了 解 束 去 阅读 其 产品 级 C++ 代 码 ， 那 么 读 慌 的 难度 很 大 。 但 如 果 将 产 
品级 代码 和 速度 提升 部 分 剥离 出 去 ， 那 么 代码 就 会 变 得 可 探 ， 或 许 这 
样 的 代码 就 可 以 了 。 

有 些 人 认为 ，SVM 是 最 好 的 现成 的 分 类 器， 这 里 说 的 “现成 ” 指 的 是 分 
类 器 不 加 修改 即 可 ， 直 接 使 用 。 同 时 ， 这 束 意 味 着 在 数据 上 应 用 基本 
形式 的 SVM 分 类 句 束 可 以 得 到 低 错 误 率 的 结果 。SVM 能 够 对 训练 集 之 
外 的 数据 点 做 出 很 好 的 分 类 决策 。 

本 章 首先 讲述 SVM 的 基本 概念 ， 书 中 会 引入 一 些 关 键 术语 。SVM 有 很 
多 实现 ， 但 是 本 章 只 关注 其 中 最 流行 的 一 种 实现 ， 即 序列 最 小 优化 : 

(Sequential Minimal Optimization, SMO) 算法 。 在 此 之 后 ， 将 介绍 如 
何 使 用 一 种 称 为 核 画 数 (kernel) 的 方式 将 SVM 扩展 到 更 多 数据 集 

上 。 最 后 会 回顾 第 1 章 中 手写 识别 的 例子 ， 并 考察 其 能 否 通过 SVM 来 提 
高 识别 的 效果 。 


1. 一 种 求解 支持 向 量 机 二 次 规划 的 算法 。 一 一 译 者 注 


61 基于 最 大 间隔 分 隔 数 据 
支持 向 量 机 
优点 ， 泛 化 错误 率 低 ， 计 算 开销 不 大 ， 结 果 易 解释 。 


RA: 对 参数 调节 和 核 函 数 的 选择 敏感 ， 原 始 分 类 器 不 加 修改 仅 
适用 于 处 理 二 类 问题 。 


适用 数据 类 型 : 数值 型 和 标 称 型 数据 。 


在 介绍 SVM 这 个 主题 之 前 ， 移 解释 几 个 概念 。 考 虑 图 6-1 中 A-D 共 4 个 方 
框 中 的 数据 点 分 布 ， 一 个 问题 束 是 ， 能 否 画 出 一 条 直线 将 圆 形 点 和 方 


形 点 分 开 呢 ? wA RÉE-27; EA PHA, "E IRIS SS 
EEF, HERRI Ma EAE Ed F Hh RB ZH Oo 
在 这 种 情况 下 ， 这 组 数据 被 称 为 线性 可 分 (linearly separable) 数据 ° 
读者 先 不 必 担 心 上 述 假设 是 否 过 于 完美 ， 稍 后 当 直 线 不 能 将 数据 点 分 
开 时 ， 我 们 会 对 上 述 假设 做 一 些 修改 。 
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图 6-1 4 个 线性 不 可 分 的 数据 集 


上 述 将 数据 集 分 隔 开 来 的 直线 称 为 分 隔 超 平面 (separating 

hyperplane) 。 在 上 面 给 出 的 例子 中 ， 由 于 数据 点 都 在 二 维 平面 上 ， 所 
以 此 时 分 隔 超 平面 就 只 是 一 条 直线 。 但 是 ， 如 果 所 给 的 数据 集 是 三 维 
的 ， 那 么 此 时 用 来 分 隔 数 据 的 就 是 一 个 平面 。 显 而 易 见 ， 更 高 维 的 情 
况 可 以 依 此 类 推 。 如 果 数 据 集 是 1024 维 的 ， 那 么 就 需要 一 个 1023 维 的 


EER RRI BEET DB ^ 301 10232 B] HE HEMT S BI JER At 
A? N-II? 该 对 象 被 称 之 为 超 平面 (hyperplane) ， 也 就 是 分 类 的 
决策 边界 。 分 布 在 超 平面 一 侧 的 所 有 数据 都 属于 茶 个 类 别 ， 而 分 布 在 
男 一 侧 的 所 有 数据 则 属于 男 一 个 类 别 。 


我 们 希望 能 采用 这 种 方式 来 构建 分 类 器 ， 即 如 采 数 据点 离 决 策 边 界 越 
还， 那么 其 最 后 的 预测 结 末 也 束 越 可 信 。 考 虑 图 6-2 框 B 到 框 D 中 的 三 条 
直线 ， 它 们 都 能 将 数据 分 隔 开 ， 但 是 其 中 哪 一 条 最 好 呢 ? 是 否 应 该 最 
小 化 数据 点 到 分 隔 超 平面 的 平均 距离 来 求 最 佳 直线 ? 如 采 是 那样 ， 图 6- 
2 的 B 和 C 框 中 的 直线 是 否 真 的 束 比 D 框 中 的 直线 好 呢 ? 如果 这 样 做 ， 是 
不 是 有 点 寻找 最 佳 拟 合 直 线 的 感觉 ? 是 的 ， 上 述 做 法 确实 有 点 像 直线 
拟 合 ， 但 这 并 非 最 佳 方案 。 我们 希望 找到 离 分 阳 超 平面 最 近 的 点 ， 确 
保 它 们 离 分 隔 面 的 距离 尽 可 能 远 。 这 里 点 到 分 隔 面 的 距离 被 称 为 间隔 ， 

(margin) 。 我 们 希望 间 隅 尽 可 能 地 大 ， 这 是 因为 如 果 我 们 犯错 或 者 在 
有 限 数 据 上 训练 分 类 右 的 话 ， 我 们 希望 分 类 右 尽 可 能 健壮 。 


本 书 中 有 两 个 间隔 的 概念 ， 一 个 是 点 到 分 隔 面 的 距离 ， 称 为 点 相对 于 分 隔 面 的 间隔 ， 另 一 个 是 数据 集中 所 有 点 到 分 隔 面 的 最 小 间隔 的 2 倍 ， 称 为 分 类 器 或 数据 集 的 间隔 。 


一 般 论文 书籍 中 所 提 到 的 “间隔 ”多 指 后 者 。SVM 分 类 器 是 要 找 最 大 的 数据 集 间隔 。 书 中 没有 特意 区 分 上 述 两 个 概念 ， 请 根据 上 下 文理 解 。 一 一 译 者 注 


支持 向 量 (support vector) 就 是 离 分 隅 超 平面 最 近 的 那些 点 。 接 下 来 
要 试 着 最 六 化 文 持 向 量 到 分 隔 面 的 距离 ， 需 要 找到 此 问题 的 优化 求解 


方法 M 


2 4 6 8 10 12 14 
D 


-4 


792-0 2 4 6 8 101 l| ?2 02 4 6 8 10 D 14 


图 6-2 ”A 框 中 给 出 了 一 个 线性 可 分 的 数据 集 ，B、C、D 框 中 各 自给 出 
了 一 条 可 以 将 两 类 数据 分 开 的 直线 


6.2 “寻找 最 大 间隔 


如 何 求解 数据 集 的 最 佳 分 隔 直 线 ? 先 来 看 看 图 6-3。 分 隅 超 平面 的 形式 
可 以 写成 wx +b。 要 计算 点 A 到 分 隔 超 平面 的 距离 ， 就 必须 给 出 点 到 
分 隔 面 的 法 线 或 垂 线 的 长 度 ， 该 值 为 | w7A +b1/1|lw ||。 这 里 的 常数 b 
类 似 于 Logistic 回 归 中 的 截 距 w。。 这 里 的 癌 量 w 和 第 数 b 一 起 插 述 了 所 
给 数据 的 分 隔 线 或 超 平面 。 接 下 来 我 们 讨论 分 类 万 。 


函数 间隔 


图 6-3 ”A 到 分 隔 平 面 的 距离 就 是 该 点 到 分 隔 面 的 法 线 长 度 
6.2.1 分 类 器 求解 的 优化 问题 


前 面 已 经 提 到 了 分 类 器 ， 但 还 没有 介绍 它 的 工作 原理 。 理 解 其 工作 原 
理 将 有 助 于 理解 基于 优化 问题 的 分 类 器 求解 过 程 。 输 入 数据 给 分 类 器 
会 输出 一 个 类 别 标签 ， 这 相当 于 一 个 类 似 于 Sigmoid 的 函数 在 作用 。 下 
面 将 使 用 类 似 海 维 赛 德 阶 跃 事 数 ”( 即 单位 阶 跃 函数 ) 的 函数 对 wx 
+b 作用 得 到 f( w 1x +b) ， 其 中 当 u<o 时 f(u) 输出 -1， 反 之 则 输出 +1。 
这 和 前 一 章 的 Logistic 回 归 有 所 不 同 ， 那 里 的 类 别 标签 是 0 或 1 。 


这 里 的 类 别 标签 为 什么 采用 1 和 +1， 而 不 是 0 和 1 呢 ? 这 是 由 于 1 和 +1 仅 
仅 相 差 一 个 符号 ， 方 便 数学 上 的 处 理 。 我 们 可 以 通过 一 个 统一 公式 来 
表示 间隔 或 者 数据 点 到 分 隔 超 平面 的 距离 ， 同 时 不 必 担 心 数 据 到 底 是 
属于 1 还 是 +1 类 。 


当 计 算数 据点 到 分 隔 面 的 距离 并 确定 分 隔 面 的 放置 位 置 时 ， 间 陋 是 通 
过 label * (wx +b) :来 计算 ， 这 时 就 能 体现 出 -1 和 +1 类 的 好 处 了 。 
如 果 数 据点 处 于 正方 向 ( 即 +1 类 ) 并 且 离 分 隔 超 平面 很 远 的 位 置 时 ， 
wx +h 会 是 一 个 很 大 的 正 数 ， 同 时 label * (wx +b) 也 会 是 一 个 很 
大 的 正 数 。 而 如 果 数 据点 处 于 负 方 向 (-1 类 ) 并 且 离 分 隔 超 平面 很 远 的 


位 置 时 ， 此 时 由 于 类 别 标签 为 -1， 则 1abel * (wx +b) 仍然 是 一 个 很 
大 的 正 数 。 


现在 的 目标 就 是 找 出 分 类 器 定义 中 的 w 和 b。 为 此 ， 我 们 必须 找到 具有 
最 小 间隔 的 数据 点 ， 而 这 些 数据 点 也 束 是 前 面 所 到 的 支持 癌 量 。 一 旦 
2 具有 最 小 间隔 的 数据 点 ， 我 们 就 需要 对 该 间隔 最 大 化 。 这 就 可 以 
写作 : 


arg max. ax] min label. (wix+d))- 


|» Pal 


直接 求解 上 述 问 题 相 当 困 难 ， 所 以 我 们 将 它 转 换 成 为 另 一 种 更 容易 求 
解 的 形式 。 首 先 考察 一 下 上 式 中 大 括号 内 的 部 分 。 由 于 对 乘积 进行 优 
化 有 是 一 件 很 讨厌 的 事情 ， 因 此 我 们 要 做 的 是 固定 其 中 一 个 因子 而 最 大 
化 其 他 因子 。 如 琳 令 所 有 文 持 癌 量 的 label * (w'x +b) 都 为 1， 那 么 
BL AY DATO | | w 11 :的 最 大 值 来 得 到 最 终 解 。 但 是 ， 并 非 所 有 数据 
点 的 label * (wx +b) 都 等 于 1， 分 隔 超 平面 最 近 的 点 得 
到 的 值 才 为 1。 而 离 超 平面 越 远 的 数据 点 ， 其 label * (wx +b) AYE 
也 束 越 大 。 


在 上 述 优化 问题 中 ， 给 定 了 一 些 约束 条 件 然后 求 最 优 值 ， 因 此 该 问题 
是 一 个 市 约束 条 件 的 优化 问题 。 这 里 的 约束 条 件 束 是 label * (w"x 
+b) > 1.0。 对 于 这 类 优化 问题 ， 有 一 个 非常 著名 的 求解 方法 ， 即 拉 格 明 
日 乘 子 法 。 通 过 引入 拉 格 明日 乘 子 ， 我 们 束 可 以 基于 约束 条 件 来 表述 
原来 的 问题 。 由 于 这 里 的 约束 条 件 都 生 基 于 数据 点 的 ， 因 此 我 们 束 可 
以 将 超 平面 写成 数据 点 的 形式 。 于 是 ， 优 化 目标 函数 最 后 可 以 写成 : 


max Ee a-— zm label” - label” . a, - a, ( 4 a ] i 


2i I 


m 
a0, fl 'a,-label"" =0 
i-i 


至 此 ， 一 切 都 很 完美 ， 但 是 这 里 有 个 假设 : 数据 必须 100% 线 性 可 分 。 
目前 为 止 ， 我 们 知道 几乎 所 有 数据 都 不 不 可 能 那么 “干净 ”。 这 时 我 们 
就 可 以 通过 引入 所 谓 松 弛 变量 (slack variable) ， 来 允许 有 些 数据 点 可 
以 处 于 分 隔 面 的 错误 一 侧 。 这 样 我 们 的 优化 目标 就 能 保持 仍然 不 变 ， 

但 是 此 时 新 的 约束 条 件 则 变 为 : 


C=a=0. fl >. Ci - labe]? -0 
i-l 


这 里 的 常数 c 用 于 控制 “最 大 化 间 隅 ” 和 “保证 大 部 分 点 的 函数 间隔 ?小 于 
1.0” 这 两 个 目标 的 权重 。 在 优化 算法 的 实现 代码 中 ， 第 数 c 是 一 个 参 
数 ， 因 此 我 们 束 可 以 通过 调节 该 参数 得 到 不 同 的 结 采 。 一 旦 求 出 了 所 
有 的 alpha ， 那 么 分 隅 超 平面 就 可 以 通过 这 些 alpha 来 表达 。 这 一 结论 
十 分 直接 ，SVM 中 的 主要 工作 束 古 求解 这 些 alpha ° 


label * (w*x +b) me 
|| w || 


label * (or 3045) ,0 amA ERE 
REHOR TT, 2 p 
i ERER 称 为 点 分 陋 面 的 几何 间 阳 。 译 者 注 


要 理解 刚才 给 出 的 这 些 公式 还 需要 大 量 的 知识 。 如 采 你 有 兴趣 ， 我 强 
烈 建 议 去 但 阅 相 关 的 教材 > ， 以 获得 上 述 公 式 的 推导 细节 。 


3. Christopher M. Bishop, Pattern Recognition and Machine Learning (Springer, 2006). 


4. Bernhard Schlkopf and Alexander J. Smola, Learning with Kernels: Support Vector Machines, Regularization, Optimization,and Beyond (MIT Press, 2001). 


62.2 SVM 应 用 的 一 般 框架 


在 第 1 草 中 ， 我 们 定义 了 构建 机 器 学 习 应 用 的 一 般 步 又 ,但 是 这 些 步 又 
会 随机 右 学 习 任 务 或 算法 的 不 同 而 有 所 改变 ， 因 此 有 必要 在 此 探讨 如 
何在 本 章 中 实现 它们 。 


SVM 的 一 般 流程 


1. 收集 数据 ， 可 以 使 用 任意 方法 。 

2. 准备 数据 ， 需 要 数值 型 数据 。 

3. 分 析 数据 ， 有 助 于 可 视 化 分 隔 超 平面 。 

A. 训练 算法 : SVM 的 大 部 分 时 间 都 源 自 训 练 ， 该 过 程 主 要 实现 两 个 
参数 的 调 优 。 

s 测试 算法 :十 分 简单 的 计算 过 程 就 可 以 实现 。 

6. 使 用 算法 ， 几乎 所 有 分 类 问题 都 可 以 使 用 SVM， 值 得 一 提 的 是 ， 
SVM 本 身 是 一 个 二 类 分 类 器 ， 对 多 类 问题 应 用 SVM 需要 对 代码 做 


一 些 修改 。 


到 目前 为 止 ， 我 们 已 经 了 解 了 一 些 理论 知识 ， 我 们 当然 希望 能 够 通过 
编程 ， 在 数据 集 上 将 这 些 理论 付 诸 实 践 。 下 一 市 将 介绍 一 个 简单 但 很 
强大 的 实现 算法 。 


63 SMO 高 效 优化 算法 


接 下 来 ， 我 们 根据 6.2.1 节 中 的 最 后 两 个 式 子 进行 优化 ， 其 中 一 个 是 最 
小 化 的 目标 函数 ， 一 个 是 在 优化 过 程 中 必须 遵循 的 约束 条 件 。 不 久之 
前 ， 人 们 还 在 使 用 二 次 规划 求解 工具 (quadratic solver) 来 求解 上 述 最 
优化 问题 ， 这 种 工具 是 一 种 用 于 在 线性 约束 下 优化 具有 多 个 变量 的 二 
次 目标 函数 的 软件 。 而 这 些 二 次 规划 求解 工具 则 需要 强大 的 计算 能 力 
支撑 ， 另 外 在 实现 上 也 十 分 复杂 。 所 有 需要 做 的 围绕 优化 的 事情 就 是 
训练 分 类 器 ， 一 旦 得 到 alpha 的 最 优 值 ， 我 们 就 得 到 了 分 隔 超 平面 (2 
维 平面 中 就 是 直线 ) 并 能 够 将 之 用 于 数据 分 类 。 


下 面 我 们 就 开始 讨论 SMO 算 法 ， 然 后 给 出 一 个 人 简化 的 版 本 ， 以 便 读 考 
能 够 正确 理解 它 的 工作 流程 。 后 一 广 将 会 给 出 SMO 算 法 的 完整 版 ， 它 
比 简化 版 的 运行 速度 要 快 很 多 。 

6.3.1 ”Platt 的 SMO 算 法 

1996 年 ，John Platt 发 布 了 一 个 称 为 SMO :的 强大 算法 ， 用 于 训练 SVM 。 
SMO 表 示 序 列 最 小 优化 (Sequential Minimal Optimization) 。Platt 的 


SMO 算 法 十 将 大 优化 问题 分 解 为 多 个 小 优化 问题 来 求解 的 。 这 些小 优 
化 问题 往往 很 容易 求解 ， 并 且 对 它们 进行 顺序 求解 的 结果 与 将 它们 作 
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法 的 求解 时 间 短 很 多 。 


SMO 算 法 的 目标 是 求 出 一 系列 alpha 和 b ， 一 旦 求 出 了 这 些 alpha Wi 
很 容易 计算 出 权重 向 量 w 并 得 到 分 隅 超 平面 。 


SMO 算 法 的 工作 原理 是 :每 次 循环 中 选择 两 个 alpha 进行 优化 处 理 。 一 
旦 找到 一 对 合适 的 alpha ， 那 么 束 增 大 其 中 一 个 同时 减 小 改 一 个 。 这 里 
所 谓 的 “合适 ” 束 是 指 两 个 alpha 必 须要 符合 一 定 的 条 件 ， 条 件 之 一 殉 是 
这 两 个 alpha 必须 要 在 间隔 边界 之 外 ， 而 其 第 二 个 条 件 则 是 这 两 个 
alpha 还 没有 进行 过 区 间 化 处 理 或 者 不 在 边界 上 。 


1. John C. Platt, *Using Analytic QP and Sparseness to Speed Training of Support Vector Machines" in Advances in Neural Information Processing Systems 11, M. S. Kearns, S. A. 


Solla, D. A. Cohn, eds(MIT Press, 1999), 557-63. 


6.3.2 ”应 用 简化 版 SMO 算 法 处 理 小 规模 数据 集 


Platt SMO 算 法 的 完整 实现 需要 大 量 代 码 。 在 接 下 来 的 第 一 个 例子 中 ， 
我 们 将 会 对 算法 进行 简化 处 理 ， 以 便 了 解 算法 的 基本 工作 思路 ， 之 后 
再 基于 简化 版 给 出 完整 版 。 简 化 版 代码 虽然 量 少 但 执行 速度 慢 。Platt 
SMO 算 法 中 的 外 循环 确定 要 优化 的 最 佳 alpha 对 。 而 人 简化 版 却 会 跳 过 这 
一 部 分 ， 首 先 在 数据 集 上 过 有 历 每 一 个 alpha， 人 然后 在 剩 下 的 alpha 集 合 
随机 选择 另 一 个 aljpha， 从 而 构建 apha 对 。 这 里 有 一 点 相当 重要 ， 就 是 
E 时 改变 两 个 alpha。 之 所 以 这 样 做 是 因为 我 们 有 一 个 约束 条 
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变 两 个 alpha ° 


为 此 ， 我 们 将 构建 一 个 辅助 函数 ， 用 于 在 某 个 区 间 范 围 内 随机 选择 一 
个 整数 。 同 时 ， 我 们 也 需要 男 一 个 辅助 函数 ， 用 于 在 数值 太 大 时 对 其 
进行 调整 。 下 面 的 程序 清单 给 出 了 这 两 个 函数 的 实现 。 读 者 可 以 打开 
一 个 文本 编辑 器 将 这 些 代 码 加 入 到 svmMLiA.py 文 件 中 。 


程序 清单 6-1 SMO 算 法 中 的 辅助 画 数 


def loadDataSet(fileName): 
dataMat - []; labelMat - [] 
fr - open(fileName) 
for line in fr.readlines(): 
lineArr = line.strip().split('\t') 
dataMat.append([float(lineArr[0]), float(lineArr[1])]) 
labelMat.append(float(lineArr[2])) 
return dataMat, labelMat 
def selectJrand(i,m): 
j=i 
while (j--i): 
j = int(random.uniform(0,m)) 
return j 
def clipAlpha(aj,H,L): 


if aj > H: 


M 
I 


aj 


if L > aj: 


M 
r 


aj 


return aj 
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知 的 loadpatset() 函数 ， 该 函数 打开 文件 并 对 其 进行 逐 行 解析 ， 从 而 

得 到 每 行 的 类 标 答 和 整个 数据 矩阵 。 


下 一 个 函数 selectJrand() 有 两 个 参数 值 ， 其 中 i 是 第 一 个 alpha 的 下 
标 ，m 是 所 有 alpha 的 数目 。 只 要 函数 值 不 等 于 输入 值 i ， 函 数 束 会 进行 
随机 选择 。 


最 后 一 个 辅助 函数 就 是 clipAlpha() ， 它 是 用 于 调整 大 于 H 或 小 于 L 的 
ze 。 尽 管 上 述 3 个 辅助 画 效 本 吴 做 的 事情 不 多 ， 但 在 分 类 万 中 却 很 


>>> import svmMLiA 
>>> dataArr,labelArr = svmMLiA.loadDataSet('testSet.txt') 
>>> labelArr 


[1.07 «1.0, 1.0, -1.0, 1.0, 1:0, 1.0, -1.0, -1.0, -1.0, -1.0, -1.0, 41.0, 1.0.. 


可 以 看 得 出 来 ， 这 里 采用 的 类 别 标签 是 -1 和 1， 而 不 是 0 和 1 。 
上 上 述 工作 完成 之 后 ， 束 可 以 使 用 SMO 算 法 的 第 一 个 版 本 了 。 
该 SMO 男 数 的 伪 代 码 看 上 去 像 下 面 这 个 样子 : 


创建 一 个 alpha 向 量 


ay 


其 初始 化 为 9 向 量 


当 和 迭代 次 数 小 于 最 大 和 迭代 次 数 时 (外 循环 ) 


对 数据 集中 的 每 个 数据 向 量 《内 循环 ) : 


如 果 该 数据 向 量 可 以 被 优化 : 


a 


随机 选择 另外 一 个 数据 向 量 


同时 优化 这 两 个 向 量 


如 果 两 个 向 量 都 不 能 被 优化 ， 退 出 内 循环 


如 果 所 有 向 量 都 没 被 优化 ， 增 加 迭代 数目 ， 继 续 下 一 次 循环 


程序 清单 6-2 中 的 代码 是 SMO 算 法 的 一 个 有 效 有 版本。 在 Python 中 ， 如 有 果 
某 行 以 \ 符号 结束 ， 那 么 就 意味 着 该 行 语句 没有 结束 并 会 在 下 一 行 延 
续 。 下 面 的 代码 当中 有 很 多 很 长 的 语句 必须 要 分 成 多 行 来 写 。 因 此 ， 
下 面 的 程序 中 使 用 了 多 个 \ 符号 。 打 开 文 件 svmMLiA.py 之 后 输入 如 下 
程序 清单 中 的 代码 。 


程序 清单 6-2 ”简化 版 SMO 算 法 


def smoSimple(dataMatIn, classLabels, C, toler, maxIter): 
dataMatrix - mat(dataMatIn); labelMat - mat(classLabels).transpose() 
b = 0; m,n = shape(dataMatrix) 


alphas = mat(zeros((m,1))) 


while (iter < maxIter): 
alphaPairsChanged = 0 
for i in range(m): 


fXi = float(multiply(alphas,labelMat).T* (dataMatrix*dataMatrix[i,:] 


.T)) + b 


Ei - fXi - float(labelMat[i]) 


#0 如 果 alpha 可 以 更 改进 入 优化 过 程 


if ((labelMat[i]*Ei < - 
toler) and (alphas[i] « C)) or ((labelMat[i]*Ei » toler) and (alphas[i] » 0)): 


#0 随机 选择 第 二 个 alpha 


j = selectJrand(i,m) 


fXj = float(multiply(alphas,labelMat).T* 
(dataMatrix*dataMatrix[j,:].T)) * b 


Ej = fXj - float(labelMat[j]) 


alphalold - alphas[i].copy(); 


alphaJold - alphas[j].copy(); 


# © 〈 以 下 六 行 ) 保证 alpha 在 0 与 C 之 间 


if (labelMat[i] != labelMat[j]): 


L - max(0, alphas[j] - alphas[i]) 


H = min(C, C + alphas[j] - alphas[i]) 


else: 


L = max(0, alphas[j] + alphas[i] - C) 


H = min(C, alphas[j] + alphas[i]) 


if L==H: print "L--H"; continue 


eta - 2.0 * dataMatrix[i,:]*dataMatrix[j,:].T - dataMatrix[i,:]* 
dataMatrix[i,:].T - dataMatrix[j,:]*dataMatrix[j,:].T 


if eta >= 0: print "eta>=0"; continue 


alphas[j] -= labelMat[j]*(Ei - Ej)/eta 


alphas[j] = clipAlpha(alphas[j],H,L) 


if (abs(alphas[j] - alphaJold) « 0.00001): print "j not moving e 


nough"; continue 


#0 对 i 进行 修改 ， 修 改 量 与 j 相 同 ， 但 方向 相反 


alphas[i] += labelMat[j]*labelMat[i]*(alphaJold - alphas[j]) 


b1 = b - Ei- labelMat[i]*(alphas[i]- 
alphalold)* dataMatrix[i,:]*dataMatrix[i,:].T - labelMat[j]*(alphas[j]- 
alphaJold)* dataMatrix[i,:]*dataMatrix[j,:].T 


49 (UFE) 设置 常数 项 


b2 = b - Ej- labelMat[i]*(alphas[i]- 


alphalold)*dataMatrix[i,:]*dataMatrix[j,:].T - labelMat[j]*(alphas[j]- 


alphaJold)*dataMatrix[j,:]*dataMatrix[j,:].T 


if (© < alphas[i]) and (C > alphas[i]): b = b1 


elif (0 < alphas[j]) and (C > alphas[j]): b = b2 


else: b = (b1 + b2)/2.0 


alphaPairsChanged += 1 


print "iter: %d i:%d, pairs changed %d" 96 (iter,i,alphaPairsChan 


ged) 


if (alphaPairsChanged -- 0): iter += 1 


else: iter - 0 


print "iteration number: %d" % iter 


return b,alphas 


这 个 函数 比较 大 ， 或 许 是 我 所 知道 的 本 书 中 最 大 的 一 个 函数 。 该 函数 
有 5 个 输入 参数 ， 分 别 是 : 数据 集 、 类 别 标签 、 和 单数 c、 容错 率 和 退出 
前 最 大 的 循环 次 数 。 在 本 书 ， 我 们 构建 范 数 时 采用 了 通用 的 接口 ， 这 
样 瓯 可 以 对 算法 和 数据 源 进 行 组 合 或 配对 处 理 。 上 述 函 数 将 多 个 列表 
和 输入 参数 转换 成 NumPy 和 窍 了 省， 这 样 就 可 以 人 简化 很 多 数学 处 理 控 作 。 
由 于 转 置 了 类 别 标签 ， 因 此 我 们 得 到 的 束 是 一 个 列 癌 量 而 不 是 列表 。 
于 是 类 别 标签 回 量 的 每 行 元 素 都 和 数据 矩阵 中 的 行 一 一 对 应 。 我 们 也 
可 以 通过 窍 阵 dataMatIn 的 shape 属 性 得 到 常数 mn 和 n 。 最 后 ， 我 们 就 可 
以 构建 一 个 alpha 列 矩阵 ， 和 矩阵 中 元 素 都 初始 化 为 0， 并 建立 一 个 iter 变 
量 。 该 变量 存储 的 则 是 在 没有 任何 alpha 改 变 的 情况 下 遍历 数据 集 的 次 
数 。 当 该 变量 达到 输入 值 mnaxIter 时 ， 函 数 结 束 运行 并 退出 。 


每 次 循环 当中 ， 将 alphaPairschanged 先 设 为 0， 然 后 再 对 整个 集合 顺 
Fri ° aS = alphaPairsChanged 用 于 记录 alpha 是 否 已 经 进行 优化 。 当 
然 ， 在 循环 结束 时 就 会 得 知 这 一 点 。 百 多，fxi 能 够 计算 出 来 ， 这 束 是 
我 们 预测 的 类 别 。 然 后 ， 基 于 这 个 实例 的 预测 结果 和 真实 结果 的 比 
对 ， 了 束 可 以 计算 误差 引 。 如 果 误 差 很 大 ， 那 么 可 以 对 该 数据 实例 所 对 
应 的 alpha 值 进行 优化 。 对 该 条 件 的 测试 处 于 上 述 程 序 清 单 的 @@ 处 。 在 
if 语句 中 ， 不 管 是 正 间隔 还 是 负 间 隅 都 会 被 测试 。 并 且 在 该 放 语句 
中 ， 也 要 同时 检查 alpha 值 ， 以 保证 其 不 能 等 于 0 或 C。 由 于 后 面 alpha 人 小 
于 0 或 大 于 C 时 将 被 调整 为 0 或 C， 所 以 一 旦 在 该 站 语句 中 它们 等 于 这 两 
个 值 的 话 ， 那 么 它们 就 已 经 在 “边界 ”上 了 ， 因 而 不 再 能 够 减 小 或 增 
大 ， 因 此 也 就 不 值得 再 对 它们 进行 优化 了 。 


接 下 来 ， 可 以 利用 程序 清单 6-1 中 的 辅助 函数 来 随机 选择 第 二 个 alpha 
值 ， 即 alpha[j] @。 同 样 ， 可 以 采用 第 一 个 alpha 值 (alpha[i] ) 的 误差 
计算 方法 ， 来 计算 这 个 alpha 值 的 误差 。 这 个 过 程 可 以 通过 copy( ) 的 方 
法 来 实现 ， 因 此 稍 后 可 以 将 新 的 alpha 值 与 老 的 alpha 值 进行 比较 。 
Python 则 会 通过 引用 的 方式 传递 所 有 列表 ， 所 以 必须 明确 地 告知 Python 


要 为 alphaIold 和 alphaJold 分 配 新 的 内 存 ; 否则 的 话 ， 在 对 新 值 和 旧 
值 进行 比较 时 ， 我 们 就 看 不 到 新 旧 值 的 变化 。 之 后 我 们 开始 计算 L 和 Hh 
上 日， 它们 用 于 将 alpharj] 调整 到 0 到 c 之 间 。 如 果 L 和 H 相等 ， 就 不 做 任 
何 改变 ， 直 接 执行 continue 语句 。 这 在 Python 中 ， 则 意味 着 本 次 循环 
结束 直接 运行 下 一 次 for 的 循环 。 


Eta 是 alpha[j] 的 最 优 修改 量 ， 在 那个 很 长 的 计算 代码 行 中 得 到 。 如 采 
eta 为 6 HPW bim wk H for 循环 的 当前 适 代 过 程 。 该 过 程 对 真实 
SMO 算 法 进行 了 简化 处 理 。 如 果 eta 为 0， 那 么 计算 新 的 alpha[j] PEL 
较 磋 烦 了 ， 这 里 我 们 就 不 对 此 进行 详细 的 介绍 了 。 须 要 的 读者 可 以 
阅读 Platt 的 原文 来 了 解 更 多 的 细节 。 现 实 中 ， 这 种 情况 并 不 常 发 生 ， 
此 名 略 这 一 部 分 通 营 也 无 念 大 雅 。 于 是 ， 可 以 计算 出 一 个 新 的 alpha[j] 
， 人 然后 利用 程序 清单 6-1 中 的 辅助 画 数 以 及 ! 与 H 值 对 其 进行 调整 。 


然后 ， 就 是 需要 检查 alpha[j] 是 否 有 轻微 改变 。 如 果 是 的 话 ， 就 退出 
for 循环 。 然 后 ，alpha[i] 和 alpha[j] 同样 进行 改变 ， 虽 然 改变 的 大 小 
一 样 ， 但 是 改变 的 方 回 正好 相反 〈 即 如 果 一 个 增加 ， 那 么 另外 一 个 减 
少 ) @。 在 对 alpha[i] 和 alpha[j] 进行 优化 之 后 ， 给 这 两 个 alpha 值 设 
置 一 个 常数 项 b@。 


最 后 ， 在 优化 过 程 结束 的 同时 ， 必 须 确保 在 合适 的 时 机 结束 循环 。 如 
果 程 序 执行 到 for 循环 的 最 后 一 行 都 不 执行 continue A), MAME 
成 功 地 改变 了 一 对 alpha， 同 时 可 以 增加 alphapairschanged 的 值 。 在 
for 循环 之 外 ， 需 要 检查 alpha 值 是 否 做 了 更 新 ， 如 果 有 更 新 则 将 iter 
设 为 0 后 继续 运行 程序 。 只 有 在 所 有 数据 集 上 遍历 maxIter 次 ， 且 不 再 
发 生 任何 alpha 修 改 之 后 ， 程 序 才 会 停止 并 退出 while 循环 。 


为 了 解 实 际 效 末 ， 可 以 运行 如 下 命令 : 


>>> b,alphas = svmMLiA.smoSimple(dataArr, labelArr, 0.6, 0.001, 40) 


运行 后 输出 类 似 如 下 结果 : 
iteration number: 29 


j not moving enough 


iteration number: 30 

iter: 30 i:17, pairs changed 1 

j not moving enough 

iteration number: 0 

j not moving enough 

iteration number: 1 
上 述 运 行 过 程 需要 几 分 钟 才 会 收敛 。 一 旦 运行 结束 ， 我 们 可 以 对 结 采 
进行 观察 : 

>>> b 


matrix([[-3.84064413]]) 


我 们 可 以 直接 观察 alpha 算 孟 本 号 ， 但 是 其 中 的 零 元 素 太 多 。 为 了 观 守 
大 于 0 的 元 聚 的 数量 ， 可 以 输入 如 下 命令 : 


>>> alphas[alphas>0] 


matrix([[ 0.12735413, 0.24154794, 0.36890208]]) 


由 于 SMO 算 法 的 随机 性 ， 读 者 运行 后 所 得 到 的 结果 可 能 会 与 上 壕 结 
Axe] ° alphas[alphas>o] 命令 是 数组 过 滤 (array filtering) 的 一 个 实 
例 ， 而 且 它 只 对 NumPy 类 型 有 用 ， 却 并 不 适用 于 Python 中 的 正则 表 

(regular list) 。 如 果 输 入 alpha>g ， 那 么 就 会 得 到 一 个 布尔 数组 ， 并 
且 在 不 等 式 成 立 的 情况 下 ， 其 对 应 值 为 正确 的 。 于 是 ， 在 将 该 布尔 数 
组 应 用 到 原始 的 矩阵 当中 时 ， 束 会 得 到 一 个 NumPy 和 窍 了 省， 并 且 其 中 和 矩 
阵 仅 仪 包含 大 于 0 的 值 。 


为 了 得 到 支持 向 量 的 个 数 ， 输 入 : 


>>> shape(alphas[alphas»0]) 


为 了 解 哪些 数据 点 是 文 持 癌 量 ， 输 入 : 
>>> for i in range(100): 


. if alphas[i]>0.0: print dataArr[i],labelArr[i] 


得 到 的 结果 类 似 如 下 : 


[4.6581910000000004, 3.507396] -1.0 
[3.4570959999999999, -0.082215999999999997] -1.0 


[6.0805730000000002, 0.41888599999999998] 1.0 


在 原始 数据 集 上 对 这 些 文 持 问 量 画 圈 之 后 的 结 末 如 图 6-4 所 示 。 


用 回 圈 标 记 的 支持 癌 量 


图 6-4 ”在 示例 数据 集 上 运行 简化 版 ?MO 算法 后 得 到 的 结果 ， 包 括 画图 
的 支持 向 量 与 分 隔 超 平面 


利用 前 面 的 设置 ， 我 运行 了 10 次 程序 并 取 其 平均 时 间 。 结 果 是 ， 这 个 
过 程 在 一 台 性 能 较 差 的 笔记 本 上 需要 14.5 秒 。 虽 然 结果 看 起 来 并 不 是 太 
差 ， 但 是 别 忘 了 这 只 是 一 个 仅 有 100 个 点 的 小 规模 数据 集 而 已 。 在 更 大 
的 数据 集 上 ， 收 敛 时 间 会 变 得 更 长 。 在 下 一 节 中 ， 我 们 将 通过 构建 完 
整 SMO 算 法 来 加 快 其 运行 速度 。 


6.4 利用 完整 Platt SMO 算 法 加 速 优化 


在 儿 百 个 点 组 成 的 小 规模 数据 集 上 ， 简 化 版 SMO 算 法 的 运行 征 没 有 什 
么 问题 的 ， 但 是 在 更 大 的 数据 集 上 的 运行 速度 束 会 变 慢 。 刚 才 已 经 讨 

论 了 简化 版 SMO 算 法， 下 面 我 们 就 讨论 完整 版 的 Platt SMO 算 法 。 在 这 
两 个 版 本 中 ， 实 现 alpha 的 更 改 和 代数 运算 的 优化 环 世 一模一样。 在 优 
化 过 程 中 ， 唯 一 的 不 同 就 是 选择 alpha 的 方式 。 完 整 版 的 Platt SMO 算 法 
应 用 了 一 些 能 够 提速 的 局 发 方法 。 或 许 读者 已 经 意识 到 ， 上 一 节 的 例 

子 在 执行 时 存在 一 定 的 时 间 提 升 空间 。 


Platt SMO 算 法 是 通过 一 个 外 循环 来 选择 第 一 个 alpha 值 的 ， 并 且 其 选择 

过 程 会 在 两 种 方式 之 间 进 行 交 奉 : 一 种 方式 是 在 所 有 数据 集 上 进行 单 

遍 扫描 ， 另 一 种 方式 则 是 在 非 边 界 alpha 中 实现 单 遍 扫描 。 而 所 谓 非 边 

界 alpha 指 的 丈 是 那些 不 等 于 边界 0 或 C 的 alpha 值 。 对 整个 数据 集 的 扫描 

相当 容易 ， 而 实现 非 边界 alpha 值 的 扫描 时 ， 首 先 需 要 建立 这 些 alpha 值 

WN, Ae hx STA o IY, PRA wT ABH RY 
` 会 改变 的 alpha 值 。 


在 选择 第 一 个 alpha 值 后 ， 算 法 会 通过 一 个 内 循环 来 选择 第 二 个 alpha 
值 。 在 优化 过 程 中 ， 会 通过 最 大 化 步 长 的 方式 来 获得 第 二 个 alpha 值 。 
在 简化 版 SMO 算 法 中 ， 我 们 会 在 选择 j 之 后 计算 错误 率 Ej 。 但 在 这 
里 ， 我 们 会 建立 一 个 全 局 的 缓存 用 于 保存 误差 值 ， 并 从 中 选择 使 得 步 
长 或 者 说 Ei-Ej 最 大 的 alpha 值 。 

在 讲述 改进 后 的 代码 之 前 ， 我 们 必须 要 对 上 证 的 代码 进行 清理 。 下 面 
的 程序 清单 中 包含 1 个 用 于 清理 代码 的 数据 结构 和 3 个 用 于 对 E 进行 缓存 
的 辅助 钞 数 。 我 们 可 以 打开 一 个 文本 编辑 右 ， 输 入 如 下 代码 : 


程序 清单 6-3 ”完整 版 Platt SMO 的 支持 函数 


class optStruct: 


def | init (self,dataMatIn, classLabels, C, toler): 


self.X - dataMatIn 


self.labelMat - classLabels 


SelLf.C = C 


self.tol = toler 


self.m = shape(dataMatIn) [0] 


self.alphas - mat(zeros((self.m,1))) 


self.b = 0 


#@ ”误差 缓存 


self.eCache = mat(zeros((self.m,2))) 


def calcEk(oS, k): 


fXk = float(multiply(oS.alphas,oS.labelMat).T*(oS.X*oS.X[k, :].T)) + oS.b 


Ek = fXk - float(oS.labelMat[k]) 


return Ek 


def selectJ(i, oS, Ei): 


#@ ”内 循环 中 的 启发 式 方法 


maxK = -1; maxDeltaE = 0; Ej = 0 


oS.eCache[i] = [1,Ei] 


validEcacheList = nonzero(oS.eCache[:,0].A)[0] 


if (len(validEcacheList)) > 1: 


for k in validEcacheList: 


if k -- i: continue 


Ek = calcEk(oS, k) 


deltaE - abs(Ei - Ek) 


#0 (以 下 两 行 ) 选择 具有 最 大 步 长 的 ]j 


if (deltaE » maxDeltaE): 


maxK = k; maxDeltaE = deltaE; Ej = Ek 


return maxK, Ej 


else: 


j = selectJrand(i, oS.m) 


Ej = calcEk(oS, j) 


return j, Ej 


def updateEk(oS, k): 


Ek = calcEk(oS, k) 


oS.eCache[k] = [1,Ek] 


首要 的 事情 就 是 建立 一 个 数据 结构 来 保存 所 有 的 重要 值 ， 而 这 个 过 程 
可 以 通过 一 个 对 象 来 完成 。 这 里 使 用 对 象 的 目的 并 不 是 为 了 面向 对 象 
的 编程 ， 而 只 是 作为 一 个 数据 结构 来 使 用 对 象 。 在 将 值 传 给 函数 时 ， 
我 们 可 以 通过 将 所 有 数据 移 到 一 个 结构 中 来 实现 ， 这 样 就 可 以 省 掉 手 
工 输入 的 麻烦 了 。 而 此 时 ， 数 据 驶 可 以 通过 一 个 对 象 来 进行 传递 。 实 
际 上 ， 当 完成 其 实现 时 ， 可 以 很 容易 通过 Python 的 字典 来 完成 。 但 是 在 
访问 对 象 成 员 变 量 时 ， 这 样 做 会 有 更 多 的 手工 输入 操作 ， 对 比 一 下 
myObject.X 和 myobject[ EXT] 就 可 以 知道 这 一 上 后 。 为 达到 这 个 目的 ， 需 
要 构建 一 个 仅 包 含 init 方法 的 optstruct 类 。 该 方法 可 以 实现 其 成 员 变 
量 的 填充 。 除 了 增加 了 一 个 mx2 的 矩阵 成 员 变 量 ecache 之 外 @， 这 些 做 
法 和 人 简化 版 SMO 一 模 一 样 。ecache 的 第 一 列 给 出 的 是 ecache 是 否 有 效 
的 标志 位 ， 而 第 二 列 给 出 的 是 实际 的 E 值 。 


W TRE Walphate, 55 AK calek) 能 够 计算 E 值 并 返回 。 
以 前 ， 该 过 程 是 采用 内 骨 的 方式 来 完成 的 ， 但 是 由 于 该 过 程 在 这 个 版 
本 的 SMO 算 法 中 出 现 频 瞪 ， 这 里 必须 要 将 其 单独 擒 出 来 。 


下 一 个 函数 selectJ() 用 于 选择 第 二 个 alpha 或 者 说 内 循环 的 alpha 值 @ » 
回想 一 下 ， 这 里 的 目标 是 选择 合适 的 第 二 个 alpha 值 以 保证 在 每 次 优化 
中 采用 最 大 步 长 。 该 函数 的 误差 值 与 第 一 个 alpha 值 EE 和 下 标 i 有 天 。 
首先 将 输入 值 Ei 在 缓存 中 设置 成 为 有 效 的 。 这 里 的 有 效 (valid) 意味 
着 它 已 经 计算 好 了 。 在 ecache H, fVfiBnonzero(os.eCache[:,0].A) [0] 
TJ£& T “SSE 3€ © NumPyENZXnonzero() 返回 了 一 个 列表 ， 而 这 个 
列表 中 包含 以 输入 列表 为 目录 的 列表 值 ， 当 然 读者 可 以 猜 得 到 ， 这 里 
的 值 并 非 零 。nonzero() 语句 返回 的 是 非 零 e 值 所 对 应 的 alpha 值 ， 而 不 
是 E 值 本 身 。 程 序 会 在 所 有 的 值 上 进行 循环 并 选择 其 中 使 得 改变 最 大 的 
那个 值 @。 如 果 这 是 第 一 次 循环 的 话 ， 那 么 就 随机 选择 一 个 alpha 值 。 
当然 ， 也 存在 有 许多 更 复杂 的 方式 来 处 理 第 一 次 循环 的 情况 ， 而 上 壕 
做 法 就 能 够 满足 我 们 的 目的 。 


程序 清单 6-3 的 最 后 一 个 辅助 画 数 是 updateEk() ， 它 会 计算 误差 值 并 存 
入 缓存 当中 。 在 对 alpha 值 进行 优化 之 后 会 用 到 这 个 值 。 


程序 清单 6-3 中 的 代码 本 吴 的 作用 并 不 大 ， 但 是 当 和 优化 过 程 及 外 循环 

组 合 在 一 起 时 ， 束 能 组 成 强大 的 SMO 算 法 。 

接 下 来 将 简单 介绍 一 下 用 于 寻找 决策 边界 的 优化 例 程 。 打 开 文 本 编辑 

EL UPS | 在 前 面 ， 读 者 已 经 看 到 过 下 列 代 码 的 男 
OPERAE 


程序 清单 6-4 Platt SMO 算 法 中 的 优化 例 程 


def innerL(i, oS): 


Ei = calcEk(oS, i) 


if ((oS.labelMat[i]*Ei « - 


oS.tol) and (oS.alphas[i] < oS.C)) or((oS.labelMat[i]*Ei > oS.tol) and (oS.alpha 
s[i] > 0)): 


#@ ”第 二 个 alpha 选 择 中 的 启发 式 方法 


j,Ej = selectJ(i, oS, Fi) 


alphalold - oS.alphas[i].copy(); alphaJold - oS.alphas[j].copy(); 


if (oS.labelMat[i] != oS.labelMat[j]): 


L - max(0, oS.alphas[j] - oS.alphas[i]) 


H = min(oS.C, oS.C + oS.alphas[j] - oS.alphas[i]) 


else: 


L = max(0, oS.alphas[j] + oS.alphas[i] - oS.C) 


H = min(oS.C, oS.alphas[j] + oS.alphas[i]) 


if L--H: print "L==H"; return 0 


eta = 2.0 * oS.X[i,:]*oS.X[j, :]. T - oS.X[i,:]*oS.X[i,:].T - oS.X[j, :]*oS 


if eta >= 0: print "eta>=0"; return 0 


oS.alphas[j] -= oS.labelMat[j]*(Ei - Ej)/eta 


oS.alphas[j] = clipAlpha(oS.alphas[j],H,L) 


#@ ”更 新 错误 差 值 缓存 


updateEk(oS, j) 


if (abs(oS.alphas[j] - alphaJold) < 0.00001): 


print "j not moving enough"; return 0 


oS.alphas[i] += oS.labelMat[j]*oS.labelMat[i]*(alphaJold - oS.alphas[j]) 


qm 


BO ”更 新 错误 差 值 缓存 


updateEk(oS, i) 

b1 = oS.b - Ei- oS.labelMat[i]*(oS.alphas[i]- 
alphalold)*oS.X[i,:]*oS.X[i,:].T - oS.labelMat[j]*(oS.alphas[j]- 
alphaJold)*oS.X[i,:]*oS.X[j, : ]. T 

b2 = oS.b - Ej- oS.labelMat[i]*(oS.alphas[i]- 
alphalold)*oS.X[i,:]*oS.X[j,:].T - oS.labelMat[j]* (oS.alphas[j]- 
alphaJold)*oS.X[j,:]*oS.X[j, : ]. T 

if (© < oS.alphas[i]) and (oS.C > oS.alphas[i]): oS.b = b1 

elif (0 < oS.alphas[j]) and (oS.C > oS.alphas[j]): oS.b = b2 

else: oS.b = (b1 + b2)/2.0 


return 1 


else: return 0 


程序 清单 6-4 中 的 代码 几乎 和 程序 清单 6-2 中 给 出 的 smosimple() 函数 一 
模 一 样 ， 但 是 这 里 的 代码 已 经 使 用 了 目 己 的 数据 结构 。 该 结构 在 参数 
os 中 传递 。 第 二 个 重要 的 修改 就 是 使 用 程序 清单 6-3 中 的 selectJ() 而 
不 是 selectJrand( ) 来 选择 第 二 个 alpha 的 值 @。 最 后 ， 在 alpha 值 改变 时 
更 新 Ecache 加。 程序 清单 6-5 将 给 出 把 上 述 过 程 打包 在 一 起 的 代码 片 

段 。 这 就 是 选择 第 一 个 alpha 值 的 外 循环 。 打 开 文 本 编辑 絮 将 下 列 代 码 
加 入 到 svmMLiA.py 文件 中 。 


程序 清单 6-5 ”完整 版 Platt SMO 的 外 循环 代码 


def smoP(dataMatIn, classLabels, C, toler, maxIter, kTup=('lin', 0)): 


oS = optStruct(mat(dataMatIn),mat(classLabels).transpose(),C,toler) 


entireSet = True; alphaPairsChanged = 0 


while (iter < maxIter) and ((alphaPairsChanged > 0) or (entireSet)): 


alphaPairsChanged = 0 


#0 8 PUE 


if entireSet: 


for i in range(oS.m): 


alphaPairsChanged += innerL(i,oS) 


print "fullSet, iter: %d i:%d, pairs changed %d" 96 
(iter,i,alphaPairsChanged) 


iter += 1 


#0 WIRAMA 


else: 


nonBoundIs = nonzero((oS.alphas.A > 0) * (oS.alphas.A < C))[0] 


for i in nonBoundIs: 


alphaPairsChanged += innerL(i,oS) 


print "non- 


bound, iter: %d i:%d, pairs changed %d" % (iter,i,alphaPairsChanged) 


iter += 1 


if entireSet: entireSet - False 
elif (alphaPairsChanged -- 0): entireSet - True 
print "iteration number: %d" % iter 


return oS.b,oS.alphas 


程序 清单 6-5 给 出 的 是 完整 版 的 Platt SMO 算 法 ， 其 输入 和 函数 
smoSimple() 完全 一 样 。 函 数 一 开始 构建 一 个 数据 结构 来 容纳 所 有 的 数 
据 ， 然 后 需要 对 控制 函数 退出 的 一 些 变 量 进行 初始 化 。 整 个 代码 的 主 
体 是 while 循环 ， 这 与 smosimple() 有 些 类 似 ， 但 是 这 里 的 循环 退出 条 
件 更 多 一 些 。 当 迭代 次 数 超过 指定 的 最 大 值 ， 或 者 遍历 整 个 集合 都 未 
对 任意 alpha 对 进行 修改 时 ， 就 退出 循环 。 这 里 的 maxIter 变量 和 函数 
smosimple() 中 的 作用 有 一 点 不 同 ， 后 者 当 没 有 任何 alpha 发 生 改 变 时 会 
将 整个 集合 的 一 次 人 裔 历 过 程 计 成 一 次 迭代 ， 而 这 里 的 一 次 从 代 定 义 为 
一 次 循环 过 程 ， 而 不 管 该 循环 具体 做 了 什么 事 。 此 时 ， 如 果 在 优化 过 
程 中 存在 波动 就 会 停止 ， 因 此 这 里 的 做 法 优 于 smosimple( ) 函数 中 的 计 


数 万 法 。 


while 循环 的 内 部 与 smosimple() 中 有 所 不 同 ， 一 开始 的 for 循 环 在 数据 
集 上 遍历 任意 可 能 的 alpha@。 我 们 通过 调用 innerL() 来 选择 第 二 个 
alpha， 并 在 可 能 时 对 其 进行 优化 处 理 。 如 果 有 任意 一 对 alpha 值 发 生 改 
变 ， 那 么 会 返回 1。 第 二 个 for 循环 裔 历 所 有 的 非 边 界 alpha 值 ， 也 就 是 
不 在 边界 0 或 c 上 的 值 @ 。 


接 下 来 ， 我 们 对 for 循环 在 非 边界 循环 和 完整 志 历 之 间 进 行 切 换 ， 并 打 
印 出 迭代 次 数 。 最 后 程序 将 会 返回 常数 b 和 alpha 值 。 


为 观察 上 述 执 行 效 果 ， 在 Python 提示 符 下 输入 如 下 命令 : 


>>> dataArr,labelArr = svmMLiA.loadDataSet('testSet.txt') 


>>> b,alphas = svmMLiA.smoP(dataArr, labelArr, 0.6, 0.001, 40) 


non-bound, iter: 2 i:54, pairs changed 0 


non-bound, iter: 2 i:55, pairs changed 0 
iteration number: 3 

fullSet, iter: 3 i:0, pairs changed 0 
fullSet, iter: 3 i:1, pairs changed 0 


fullSet, iter: 3 i:2, pairs changed 0 


类 似 地 ， 读 者 也 可 以 检查 b 和 多 个 alpha 的 值 。 那 么 ， 相 对 于 简化 版 
SMO 和 算法， 上述 方 法 是 否 更 快 ? 基于 前 面 给 出 的 设置 在 我 自己 简陋 的 
笔记 本 上 运行 10 次 算法 ， 然 后 求 平 均值 ， 最 后 得 到 的 结果 是 0.78 秒 。 而 
在 同样 的 数据 集 上 ，smosimple() 函数 平均 需要 14.5 秒 。 在 更 大 规模 的 
ui ee 可 能 更 好 ， 另 外 也 存在 很 多 方法 可 以 进一步 提升 其 运行 
TRIE ° 


如 果 修 改 容错 值 结果 会 怎样 ? 如 果 改 变 c 的 值 又 如 何 呢 ? TEO.2 TRIB 
曾经 粗略 地 提 人 a 到， 常数 c 给 出 的 是 不 同 优化 问题 的 权重 。 利 数 c 一 方面 
要 保障 所 有 样 例 的 间隔 不 小 于 1.0， 另 一 方面 又 要 使 得 分 类 间隔 要 尽 可 
能 大 ， 并 且 要 在 这 两 方面 之 间 平 衡 。 如 琳 c 很 天， 那么 分 类 贱 将 力图 通 
过 分 隅 超 平 面 对 所 有 的 样 例 部 正确 分 类 。 这 种 优化 的 运行 结 来 如 图 6-5 
所 示 。 与 图 6-4 相 比 ， 会 发 现 图 6-5 中 的 支持 向 量 更 多 。 如 果 回 想 一 下 ， 
吏 会 记得 图 6-4 实 际 来 目 于 简化 版 算法 ， 该 算法 站 通过 随机 的 方式 选择 
alpha 对 的 。 这 种 简单 的 方式 也 可 以 工作 ， 但 走 效 末 却 不 如 完整 版 本 
Af, Jum SRE SESE o Be n] BEXP ye h B SCTSE [8] 88 RE VLA 
终了 最 接近 分 隅 超 平 面 。 给 定 c 的 设置 ， 图 中 男 圈 的 文 持 癌 量 束 给 出 了 满 
足 算 法 的 一 种 解 。 如 琳 数 据 集 非 线性 可 分 ， 束 会 发 现 文 持 问 量 会 在 超 
平面 附近 案 集 成 团 。 


l| RS] Ze TAYE Se d Io) EB 


图 6-5 “在 数据 集 上 运行 完整 版 SMO 算 法 之 后 得 到 的 支持 向 量 ， 其 结果 
与 图 6-4 稍 有 不 同 


读者 可 能 会 想 ， 刚 才 我 们 人 花 了 大 量 时 间 来 计算 那些 alpha 值 ， 但 是 如 何 
利用 它们 进行 分 类 呢 ? 这 不 成 问题 ， 首先 必须 基于 alpha 值 得 到 超 平 
面 ， 这 也 包括 了 w 的 计算 。 下 面 列 出 的 一 个 小 函数 可 以 用 于 实现 上 壕 任 


务 : 


def calcWs(alphas, dataArr,classLabels): 
X = mat(dataArr); labelMat = mat(classLabels).transpose() 
m,n = shape(X) 


w = zeros((n,1)) 


for i in range(m): 


w *- multiply(alphas[i]*labelMat[i],X[i,:].T) 


return w 


上 述 代 码 中 最 重要 的 部 分 是 for 循环 ， 虽 然 在 循环 中 实现 的 仅仅 是 多 个 
数 的 乘积 。 看 一 下 前 面 计算 出 的 任何 一 个 alpha， 就 不 会 坪 记 大 部 分 

alpha 值 为 0。 而 非 零 apha 所 对 应 的 也 束 是 文 持 问 量 。 虽 然 上 述 for 循环 
过 历 了 数据 集中 的 所 有 数据 ， 但 十 最 终 起 作用 的 只 有 文 持 癌 量 。 由 于 
Ww 计算 毫 无 作用 ， 所 以 数据 集 的 其 他 数据 点 也 就 会 很 容易 地 被 舍 痉 。 


为 了 使 用 前 面 给 出 的 函数 ， 输 入 如 下 命令 : 


>>> ws=svmMLiA.calcws(alphas, dataArr, labelArr) 
>>> WS 
array([[ 0.65307162], 


[-0.17196128]]) 
现在 对 数据 进行 分 类 处 理 ， 比 如 对 说 第 一 个 数据 点 分 类 ， 可 以 这 样 输 
入 : 


>>> datMat-mat(dataArr) 
>>> datMat[0]*mat(ws)+b 


matrix([[-0.92555695]]) 


如 琳 该 值 大 于 0， 那 么 其 属于 1 类 ;， 如果 该 值 小 于 0， 那 么 则 属于 -1 类 。 
对 于 数据 点 0， 应 该 得 到 的 类 别 标签 征 -1， 可 以 通过 如 下 的 命令 来 确认 
分 类 结 采 的 正确 性 : 


>>> labelArr[0] 


还 可 以 继续 检查 其 他 数据 分 类 结果 的 正确 性 : 

>>> datMat[2]*mat(ws)+b 

matrix([[ 2.30436336]]) 

»»» labelArr[2] 

1.0 

>>> datMat[1]*mat(ws)+b 

matrix([[-1.36706674]]) 

>>> labelArr[1] 


-1.0 


读者 可 将 该 结 采 与 图 6-5 进 行 比较 以 确认 其 有 效 性 。 


我 们 现在 可 以 成 功 训练 出 分 类 秋 了 ， 我 想 指出 的 融 是 ， 这 里 两 个 类 中 
的 数据 点 分 布 在 一 条 直线 的 两 边 。 看 一 下 图 6-1， 大 概 束 可 以 得 到 两 类 
的 分 隔 线形 状 。 但 是 ， 倘 若 两 类 数据 点 分 别 分 布 在 一 个 圆 的 内 部 和 外 
部 ， 那 么 会 得 到 什么 样 的 分 类 面 呢 ? 下 一 节 将 会 介绍 一 种 方法 对 分 类 
绥 进 行 修改 ， 以 说 明 类 别 区 域 形 状 不 同情 况 下 的 数据 集 分 隔 问题 。 


6.5 ”在 复杂 数据 上 应 用 核 栈 数 


考虑 图 6-6 给 出 的 数据 ， 这 有 点 像 图 6-1 的 方 框 C 中 的 数据 。 前 面 我 们 用 
这 类 数据 来 摘 述 非 线 性 可 分 的 情况 。 显 而 易 见 ， 在 该 数据 中 存在 某 种 
可 以 识别 的 模式 。 其 中 一 个 问题 惑 是 ， 我 们 能 人 否 像 线 性 情况 一 样 ， 利 
用 强大 的 工具 来 捕捉 数据 中 的 这 种 模式 ? NEAN. SRE EH) Bel 
来 ， 我 们 就 要 使 用 一 种 称 为 核 事 数 (kernel) 的 工具 将 数据 转换 成 易于 
分 类 器 理解 的 形式 。 本 节 首 允 解 释 核 男 数 的 概念 ， 并 介绍 它们 在 文 持 
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核 方 法 中 的 非 线性 可 分 数据 


图 6-6 ”这 个 数据 在 二 维 平 面 中 很 难 用 一 条 直线 分 隔 ， 不 过 很 明显 ， 这 
里 存在 分 隔 方形 点 和 圆 形 点 的 模式 


6.5.1. 利用 核 画 数 将 数据 映射 到 高 维 空 间 


在 图 6-6 中 ， 数 据点 处 于 一 个 圆 中 ， 人 类 的 大 脑 能 够 意识 到 这 一 点 。 然 
而 ， 对 于 分 类 天 而 言 ， 它 只 能 识别 分 类 融 的 结 采 是 大 于 0 还 是 小 于 0。 
如 朱 只 在 X 和 Y 轴 构成 的 坐标 系 中 插入 直线 进行 分 类 的 话 ， 我 们 并 不 会 
得 到 理想 的 结 末 。 我 们 或 许可 以 对 圆 中 的 数据 进行 某 种 形式 的 转换 ， 

从 而 得 到 某 些 新 的 变量 来 表示 数据 。 在 这 种 表示 情况 下 ， 我 们 天 更 容 
易 得 到 大 于 0 或 者 小 于 0 的 测试 结 末 。 在 这 个 例子 中 ， 我 们 将 数据 从 一 
个 特征 空间 转换 到 为 一 个 特征 空间 。 在 新 空间 下 ， 我 们 可 以 很 容易 利 
用 已 有 的 工具 对 数据 进行 处 理 。 数 学 家 们 喜欢 将 这 个 过 程 称 之 为 从 一 
个 特征 空间 到 男 一 个 特征 空间 的 映射 。 在 通常 情况 下 ， 这 种 映射 会 将 
低 维 特征 空间 映射 到 高 维 空间 。 


iR SE - MARTE Ze [8] BI 55 — T REHAE ZS [8] AY a a KE AOR SEEM 
AY) ex By DFE Ee BAS RS SS) (wrapper) 或 者 是 接口 
(interface) ， 它 能 把 数据 从 某 个 很 难处 理 的 形式 转换 成 为 另 一 个 较 容 
易 处 理 的 形式 。 如 果 上 述 特 征 衬 间 英 射 的 说 法 听 起 来 很 让 人 迷糊 的 
话 ， 那 么 可 以 将 它 想 象 成 为 另外 一 种 距离 计算 的 方法 。 前 面 我 们 提 到 
过 距离 计算 的 方法 。 距 离 计 算 的 方法 有 很 多 种 ， 不 久 我 们 也 将 看 到 
核 函 数 一 样 具有 多 种 类 型 。 经 过 空间 转换 之 后 ， 我 们 可 以 在 高 维 空间 
中 解决 线性 问题 ， 这 也 就 等 价 于 在 低 维 空间 中 解决 非 线 性 问题 。 


SVM 优 化 中 一 个 特别 好 的 地 方 就 是 ， 所 有 的 运算 都 可 以 写成 内 积 

(inner product, (EG) 的 形式 。 向 量 的 内 积 指 的 是 两 个 向 量 相 
乘 ， 之 后 得 到 单个 标量 或 者 数值 。 我 们 可 以 把 内 积 运算 替换 成 核 男 
数 ， 而 不 必 做 简化 处 理 。 将 内 积 奉 换 成 核 函 数 的 方式 被 称 为 核 技 巧 
(kernel trick) 或 者 核 “ 变 电 ” (kernel substation) ° 


核 函 数 并 不 仅仅 应 用 于 文 持 向 量 机 ， 很 多 其 他 的 机 器 学 习 算法 也 都 用 
和 
ASN ER È 
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作为 目 变 量 的 函数 ， 能 够 基于 回 量 距离 运算 输出 一 个 标量 。 这 个 距离 
可 以 是 从 <0,0> 回 量 或 者 其 他 回 量 开始 计算 的 距离 。 接 下 来 ， 我 们 将 会 
使 用 到 径 回 基 函 数 的 高 斯 版 本 ， 其 具体 公式 为 : 


k(x, y) = exp | ze | 
un | 20° | 


其 中 ，o 是 用 户 定 义 的 用 于 确定 到 达 率 (reach) 或 者 说 函数 值 跌落 到 
0 的 速度 参数 。 


上 述 高 斯 核 函 数 将 数据 从 其 特征 空间 映射 到 更 高 维 的 空间 ， 具 体 来 说 
这 里 是 映射 到 一 个 无 穷 维 的 空间 。 关 于 无 穷 维 空间 ， 读 者 目前 不 需要 
太 担 心 。 高 斯 核 画 数 只 是 一 个 种 用 的 核 画 数 ， 使 用 者 并 不 需要 确切 地 
理解 数据 到 底 是 如 何 表 现 的 ， 而 且 使 用 高 斯 核 芳 数 还 会 得 到 一 个 理想 
的 结 末 。 在 上 面 的 例子 中 ， 数 据点 基本 上 都 在 一 个 圆 内 。 对 于 这 个 例 


子 ， 我 们 可 以 直接 检查 原始 数据 ， 并 意识 到 只 要 度量 数据 点 到 圆心 的 

距离 即 可 。 然 而 ， 如 果 磁 到 了 一 个 不 是 这 种 形式 的 新 数据 集 ， 那 么 我 

们 就 会 陷入 困境 。 在 该 数据 集 上 ， 使 用 高 斯 核 芳 数 可 以 得 到 很 好 的 结 

果 。 当 然 ， 该 画 数 也 可 以 用 于 许多 其 他 的 数据 集 ， 并 且 也 能 得 到 低 错 

误 率 的 结 

如 有 条 在 svmMLiA.py 文件 中 添加 一 个 函数 并 稍 做 修改 ， 那 么 我 们 就 能 够 

在 已 有 代码 中 使 用 核 妙 数 。 甫 和 完 ， 打 开 svMLiA.py 代码 文件 并 输入 函数 
kernelTrans() ° 然后 ， 对 optstruct 类 进行 修改 ， 得 到 类 似 如 下 程序 

清单 6-6 的 代码 。 

程序 清单 6-6 BRA 


def kernelTrans(X, A, kTup): 


m,n = shape(X) 


K = mat(zeros((m,1))) 


if kTup[0]-2'lin': K = X * A.T 


elif kTup[0]--'rbf': 


for j in range(m): 


deltaRow - X[j,:] - A 


K[j] = deltaRow*deltaRow.T 


# 0 元素 间 的 除法 


K = exp(K /(-1*kTup[1]**2)) 


else: raise NameError('Houston We Have a Problem - 


- That Kernel is not recognized!) 


return K 


class optStruct: 


def | init (self,dataMatIn, classLabels, C, toler, kTup): 


self.X - dataMatIn 


self.labelMat - classLabels 


self.C 


M 
[9] 


self.tol - toler 

self.m = shape(dataMatIn) [0] 

self.alphas - mat(zeros((self.m,1))) 

self.b = 0 

self.eCache - mat(zeros((self.m,2))) 

self.K - mat(zeros((self.m,self.m))) 

for i in range(self.m): 

self.K[:,i] = kernelTrans(self.X, self.X[i,:], kTup) 

我 建议 读者 最 好 看 一 下 optstruct 类 的 新 版 本 。 除 了 引入 了 一 个 新 变量 
kTup 之 外 ， 该 版 本 和 原来 的 optstruct 一 模 一 样 。kTup 是 一 个 包含 核 
函数 信息 的 元 组 ， 待 会 儿 我 们 就 能 看 到 它 的 作用 了 。 在 初始 化 方法 结 
RET, MEREK 先 被 构建 ， 然 后 再 通过 调用 函数 kernelTrans() 进行 填 
充 。 全 局 的 k 值 只 需 计 算 一 次 。 然 后 ， 当 想 要 使 用 核 画 数 时 ， 束 可 以 对 
它 进 行 调用 。 这 也 省 去 了 很 多 元 余 的 计算 开销 。 


当 计 算 矩 阵 k 时 ， 该 过 程 多 次 调用 了 函数 kernelTrans()。 该 贸 数 有 3 个 
输入 参数 ，2 个 数值 型 变量 和 1 个 元 组 。 元 组 kTup 给 出 的 是 核 函 数 的 信 


T o FOAL AYE — 1 SNe ft et FERENT] — ETE HR. RAE] 
参数 则 都 是 核 男 数 可 能 需要 的 可 选 参数 。 该 函数 首先 构建 出 了 一 个 列 
回 量 ， 然 后 检查 元 组 以 确定 核 男 数 的 类 型 。 这 里 只 给 出 了 2 种 选择 ， 但 
是 依然 可 以 很 容易 地 通过 添加 elif 语句 来 扩展 到 更 多 选项 。 


在 线性 核 范 数 的 情况 下 ， 内 积 计 算 在 “所 有 数据 集 ”* 和 “数据 集中 的 一 

行 ”这 两 个 输入 之 间 展 开 。 在 径 向 基 核 画 数 的 情况 下 ， 在 for 循环 中 对 

于 和 矩阵 的 每 个 元 素 计算 高 斯 函数 的 值 。 而 在 for 循环 结束 之 后 ， 我 们 将 

计算 过 程 应 用 到 整个 辐 量 上 去 。 值 得 一 提 的 是 ， 在 NumPy 矩 孟 中 ， 除 

oan RENERE BRP TR AR TEMATLAB H FETT REE 
gue 。 


最 后 ， 如 有 果 遇 到 一 个 无 法 识别 的 元 组 ， 程 序 就 会 抛 出 异常 ， 因 为 在 这 
种 情况 下 不 希望 程序 再 继续 运行 ， 这 一 点 相当 重要 。 


为 了 使 用 核 函 数 ， 先 期 的 两 个 函数 innerL() 和 calcEk() 的 代码 需要 做 
些 修改 。 修 改 的 结果 参见 程序 清单 6-7。 本 来 我 并 不 想 这 样 列 出 代码 ， 
但 是 重新 列 出 函数 的 所 有 代码 需要 超过 90 行 ， 我 想 任何 人 都 不 布 望 这 
样 。 读 者 可 以 直接 从 下 载 的 源码 中 复制 代码 段 ， 而 不 必 对 修改 片段 进 
行 手 工 答 入。 下面 列 出 的 吏 是 修改 的 代码 片段 。 


E sU TE RRB TS] innerL() 及 calcEk() 画 数 进行 的 


innerL(): 


eta = 2.0 * oS.K[i,j] - os.K[i,i] - oS.K[j, j] 


b1 = oS.b - Ei- oS.labelMat[i]*(oS.alphas[i]-alphalold)*oS.K[i,i] -\ 


oS.labelMat[j]*(oS.alphas[j]-alphaJold)*oS.K[i,j] 


b2 = oS.b - Ej- oS.labelMat[i]*(oS.alphas[i]-alphalold)*oS.K[i,j]-V 


oS.labelMat[j]*(oS.alphas[j]-alphaJold)*oS.K[j,j] 


def calcEk(oS, k): 


fXk = float(multiply(oS.alphas,oS.labelMat).T*oS.K[:,k] + oS.b) 


Ek = fXk - float(oS.labelMat[k]) 


return Ek 


你 已 经 了 解 了 如 何在 训练 过 程 中 使 用 核 丽 数 ， 接 下 来 我 们 就 去 了 解 如 
何在 测试 过 程 中 使 用 核 画 数 。 


6.5.3 EP RTI 


接 下 来 我 们 将 构建 一 个 对 图 6-6 中 的 数据 点 进行 有 效 分 类 的 分 类 器 ， 该 
分 类 器 使 用 了 径 癌 基 核 贸 数 。 前 面 提 到 的 径 癌 基 范 数 有 一 个 用 户 定义 
的 输入 oc 。 首 先 ， 我 们 需要 确定 它 的 大 小 ， 然 后 利用 该 核 芳 数 构建 出 一 
个 分 类 器 。 整 个 测试 函数 将 如 程序 清单 6-8 所 示 。 读 者 也 可 以 打开 一 个 
文本 编辑 右 ， 并 且 加 入 画 数 testRbf() ° 


程序 清单 6-8 ”利用 核 档 数 进行 分 类 的 径 向 基 测 试 画 数 


def testRbf(k1-z1.3): 


dataArr,labelArr - loadDataSet('testSetRBF.txt') 


b,alphas - smoP(dataArr, labelArr, 200, 0.0001, 10000, ('rbf', k1)) 


datMat-mat(dataArr); labelMat = mat(labelArr).transpose() 


svInd=nonzero(alphas.A>0) [0] 


HRS ESC TS [A] BE 


sVs-datMat [svind] 


labelSV = labelMat[svInd]; 


print "there are %d Support Vectors" % shape(sVs)[0] 


m,n = shape(datMat) 


errorCount = 0 


for i in range(m): 


kernelEval - kernelTrans(sVs,datMat[i,:],('rbf', k1)) 


predict-kernelEval.T * multiply(labelSV,alphas[svInd]) + b 


if sign(predict)!-sign(labelArr[i]): errorCount += 1 


print "the training error rate is: %f" % (float(errorCount)/m) 


dataArr,labelArr - loadDataSet('testSetRBF2.txt') 


errorCount = 0 


datMat=mat(dataArr); labelMat = mat(labelArr).transpose() 


m,n = shape(datMat) 


for i in range(m): 


kernelEval - kernelTrans(sVs,datMat[i,:],('rbf', k1)) 


predict-kernelEval.T * multiply(labelSV,alphas[svInd]) + b 


if sign(predict)!-sign(labelArr[i]): errorCount += 1 


print "the test error rate is: %f" % (float(errorCount)/m) 


上 壕 代 码 只 有 一 个 可 选 的 输入 参数 ， 该 输入 参数 是 高 斯 径 向 基 画 数 中 
的 一 个 用 户 定义 变量 。 整 个 代码 主要 是 由 以 前 定义 的 画 数 集合 构成 

的 。 首 先 ， 程 序 从 文件 中 读 入 数据 集 ， 然 后 在 该 数据 集 上 运行 Platt 

SMO 算 法 ， 其 中 核 画 数 的 类 型 为 'rbf，。 


优化 过 程 结束 后 ， 在 后 面 的 矩阵 数学 运算 中 建立 了 数据 的 矩阵 副本 ， 
并 且 找 出 那些 非 零 的 alpha 值 ， 从 而 得 到 所 需要 的 支持 向 量 ， 同 时 ， 也 
ss ee ee 


整个 代码 中 最 重要 的 是 for 循环 开始 的 那 两 行 ， 它 们 给 出 了 如 何 利用 核 
函数 进行 分 类 ^ 首先 利用 结构 初始 化 方法 中 使 用 过 的 kernelTrans() [EZ] 
数 ， 得 到 转换 后 的 数据 。 然 后 ， 再 用 其 与 前 面 的 alpha 及 类 别 标 签 值 求 
积 。 其 中 需要 特别 注意 的 另 一 件 事 是 ， 在 这 几 行 代码 中 ， 是 如 何 做 到 
SR Bd 3 E 


与 第 一 个 for 循环 相 比 ， 第 二 个 for 循环 仅仅 只 有 数据 集 不 同 ， 后 者 采 
muc cs porre eset nd IU RS 
现 出 的 性 能 。 


为 测试 程序 清单 6-8 的 代码 ， 可 以 在 Python 提示 符 下 输入 命令 : 


>>> reload(svmMLiA) 
«module 'svmMLiA' from 'svmMLiA.pyc'» 


>>> svmMLiA.testRbf() 


fullSet, iter: 11 i:497, pairs changed 0 
fullSet, iter: 11 i:498, pairs changed 0 
fullSet, iter: 11 i:499, pairs changed 0 
iteration number: 12 
there are 27 Support Vectors 
the training error rate is: 0.030000 
the test error rate is: 0.040000 
GRAY ELA SE HAS [8] I] ka, 参数 以 观察 测试 错误 率 、 训 练 错误 率 、 文 持 


| 的 变化 情况 。 图 6-7 给 出 了 当 ka 非常 小 (=0.1) 时 的 结 


RBF k1=0.10, 85 个 支持 向 量 
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图 6-7 在 用 户 自 定义 参数 k1 = 0.1 WÉZE o RERUN RM 
少 了 每 个 支持 向 量 的 影响 程度 ， 因 此 需要 更 多 的 支持 向 量 


图 6-7 中 共有 100 个 数据 点 ， 其 中 的 85 个 为 支持 向 量 。 优 化 算法 发 现 ， 必 
须 使 用 这 些 文 持 癌 量 才 能 对 数据 进行 正确 分 类 。 这 束 可 能 给 了 读者 径 
问 基 男 数 到 达 率 太 小 的 直觉 。 我 们 可 以 通过 增加 c 来 观察 错误 率 的 变化 
情况 。 增 加 o 之 后 得 到 的 为 一 个 结 来 如 图 6-8 所 示 。 


RBF k121.30, 27 个 支持 向 量 
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图 6-8 ”在 用 户 自 定义 参数 k1=1.3 时 的 径 向 基 事 数 。 这 里 的 支持 向 量 
个 数 少 于 图 6-7 的 ， 而 这 些 支 持 向 量 在 决策 边界 周围 案 集 


同 图 6-7 相 比 ， 图 6-8 中 只 有 27 个 支持 疝 量 ， 其 数目 少 了 很 多 。 这 时 观察 
— PÉRZXtestRbf() 的 输出 结果 可 会 发 现 ， 此 时 的 测试 错误 率 也 在 下 
降 。 该 数据 集 在 这 个 设置 的 某 处 存在 着 最 优 值 。 如 果 降 低 c ， 那 么 训练 
首 误 率 承 会 降低 ， 但 是 测试 错误 率 却 会 上 升 。 


支持 向 量 的 数目 存在 一 个 最 优 值 。SVM 的 优点 在 于 它 能 对 数据 进行 高 
效 分 类 。 如 果 支 持 向 量 太 少 ， 就 可 能 会 得 到 一 个 很 差 的 决策 边界 (下 
个 例子 会 说 明 这 一 点 ) ; 如 果 支 持 向 量 太 多 ， 也 就 相当 于 每 次 都 利用 
整个 数据 集 进行 分 类 ， 这 种 分 类 方法 称 为 k 近 信 。 


我 们 可 以 对 SMO 算 法 中 的 其 他 设置 进行 随意 地 修改 或 者 建立 新 的 核 画 
数 。 接 下 来 ， 我 们 将 在 一 个 更 大 的 数据 上 应 用 支持 向 量 机 ， 并 与 以 前 
介绍 的 一 个 分 类 器 进行 对 比 。 


6.6 示例 : 手写 识别 问题 回顾 


考虑 这 样 一 个 假想 的 场景 。 你 的 老板 过 来 对 你 说 : “你 写 的 那个 手写 体 
识别 程序 非常 好 ， 但 是 它 占用 的 内 存 太 大 了 。 顾 客 不 能 通过 无 线 的 方 
式 下 载 我 们 的 应 用 (在 写本 书 时 ， 无 线 下 载 的 限制 容量 为 10MB， 可 以 
肯定 ， 这 将 来 会 成 为 笑料 的 。) 我 们 必须 在 保持 其 性 能 不 变 的 同时 ， 

使 用 更 少 的 内 存 。 我 呢 ， 告 诉 了 CEO， 你 会 在 一 周 内 准备 好 ， 但 你 到 
底 还 得 多 长 时 间 才 能 搞定 这 件 事 ? ”我 不 确定 你 到 底 会 如 何 回答 ， 但 是 
如 采 想 要 满足 他 们 的 需求 ， 你 可 以 考虑 使 用 支持 向 量 机 。 尽 管 第 2 章 所 
使 用 的 KNN 方 法 效果 不 错 ， 但 是 需要 保留 所 有 的 训练 样本 。 而 对 于 文 
持 向 量 机 而 言 ， 其 需要 保留 的 样本 少 了 很 多 ( 即 只 保留 支持 向 量 ) ， 

但 站 能 获得 可 比 的 效果 。 


示例 : 基于 SVM 的 数字 识别 


1. 收集 数据 : 提供 的 文本 文件 。 
2. 准备 数据 : 基于 二 值 图 像 构造 向 量 。 
3. 分 析 数 据 : OT ARI Set TE il) o 
4. 训练 算法 : RAPA PPA KE, FOI EK BOR AA 
的 设置 来 运行 SMO 算 法 。 
5. 测 试 算 法 : 编写 一 个 函数 来 测试 不 同 的 核 函 数 并 计算 错误 率 。 
6. 使 用 算法 : 一 个 图 像 识 别 的 完整 应 用 还 需要 一 些 图 像 处 理 的 知 
识 ， 这 里 并 不 打算 深入 介绍 。 
使 用 第 2 章 中 的 一 些 代码 和 SMO 算 法， 可 以 构建 一 个 系统 去 测试 手写 数 
字 上 的 分 类 器 。 打 开 svmMLiA.py 并 将 第 2 章 中 knn,py 中 的 img2vector() 
函数 复制 过 来 。 然 后 ， 加 入 程序 清单 6-9 中 的 代码 。 


程序 清单 6-9 基于 SVM 的 手写 数字 识别 


def loadImages(dirName): 


from os import listdir 


hwLabels - [] 


trainingFileList = listdir(dirName) 


m = len(trainingFileList) 


trainingMat - zeros((m,1024)) 


for i in range(m): 


fileNamestr = trainingFileList[i] 


fileStr = fileNameStr.split('.')[0] 


classNumStr - int(fileStr.split(' ')[0]) 


if classNumStr -- 9: hwLabels.append(-1) 


else: hwLabels.append(1) 


trainingMat[i,:] = img2vector('%s/%s' 96 (dirName, fileNameStr)) 


return trainingMat, hwLabels 


def testDigits(kTupz('rbf', 10)): 


dataArr,labelArr = loadImages('trainingDigits' ) 


b,alphas - smoP(dataArr, labelArr, 200, 0.0001, 10000, kTup) 


datMat-mat(dataArr); labelMat - mat(labelArr).transpose() 


svInd=nonzero(alphas.A>0) [0] 


sVs=datMat[svind] 


labelSV = labelMat[svInd]; 


print "there are %d Support Vectors" % shape(sVs) [0] 

m,n = shape(datMat ) 

errorCount = 0 

for i in range(m): 
kernelEval = kernelTrans(sVs, datMat[i, :],kTup) 
predict-kernelEval.T * multiply(labelSV,alphas[svInd]) + b 
if sign(predict)!-sign(labelArr[i]): errorCount += 1 

print "the training error rate is: %f" % (float(errorCount)/m) 

dataArr,labelArr = loadImages('testDigits') 

errorCount = 0 

datMat=mat(dataArr); labelMat = mat(labelArr).transpose() 

m,n = shape(datMat ) 

for i in range(m): 
kernelEval = kernelTrans(sVs, datMat[i, :],kTup) 
predict-kernelEval.T * multiply(labelSV,alphas[svInd]) + b 
if sign(predict)!-sign(labelArr[i]): errorCount += 1 


print "the test error rate is: %f" % (float(errorCount)/m) 


函数 loadImages() 是 作为 前 面 kKNN.py 中 的 handwritingclassTest() 的 
一 部 分 出 现 的 。 它 已 经 被 重 构 为 自身 的 一 个 函数 。 其 中 仅 有 的 一 个 大 


区 别 在 于 ， 在 kNN.py 中 代码 直接 应 用 类 别 标签 ， 而 同文 持 辐 量 机 一 起 
使 用 时 ， 类 别 标签 为 -1 或 者 +1。 因 此 ， 一 旦 磁 到 数字 9， 则 输出 类 别 标 
谷 -1， 人 否则 输出 +1。 本 质 上 ， 文 持 癌 量 机 是 一 个 二 类 分 类 升 ， 其 分 类 
结果 不 是 +1 就 是 -1。 基 于 SVM 构建 多 类 分 类 器 已 有 很 多 研究 和 对 比 
了 ， 如 果 读 者 感 兴 趣 ， 建 议 阅读 C. W. Huset 等 人 发 表 的 一 篇 论文 “A 
Comparison of Methods for Multiclass Support Vector Machines"' » 由 于 
这 里 我 们 只 做 二 类 分 类 ， 因 此 除了 1 和 9 之 外 的 数字 都 被 去 挥 了 。 


1. C. W. Hus, and C. J. Lin, “A Comparison of Methods for Multiclass Support Vector Machines," IEEE Transactions on Neural Networks 13, no. 2 (March 2002), 415-25. 


下 一 个 函数 testpigits() 并 不 是 全 新 的 画 数 ， 它 和 testRbf() 的 代码 几 
平一 样 ， 唯 一 的 大 区 别 就 是 它 调 用 了 loadImages() 画 数 来 获得 类 别 标 
签 和 数据 。 另 一 个 细小 的 不 同 是 现在 这 里 的 画 数 元 组 krup 是 输入 参 
数 ， 而 在 testRbf() 中 默认 的 就 是 使 用 rbf 核 画 数 。 如 果 对 于 画 数 
testpigits() 不 增加 任何 输入 参数 的 话 ， 那 么 krup 的 默认 值 就 是 Crbf 
10) ° 


A FEHB 6-9 中 的 代码 之 后 ， 将 之 保存 为 svmMLiA.py 并 输入 如 下 命 
ele 


>>> svmMLiA.testDigits(('rbf', 20)) 


L--H 
fullSet, iter: 3 i:401, pairs changed 0 
iteration number: 4 

there are 43 Support Vectors 

the training error rate is: 0.017413 


the test error rate is: 0.032258 


2c SINE. 并 笑 试 了 线性 核 男 数 ， 总 结 得 到 的 结果 如 表 6-1 
ZN œ 


表 6-1 不 同 o 值 的 手写 数字 识别 性 能 


内 核 ,设置 ”训练 错误 率 〈%) ”测试 错误 率 (0) ”支持 向 量 数 
RBE, 0.1 0 52 402 
RBE, 5 0 32 402 
RBF, 10 0 0.5 99 
RBE, 50 0.2 22 41 
RBE, 100 45 43 26 


Linear 2.7 22 38 
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得 到 最 小 的 测试 错误 率 。 该 参数 值 比 前 面 例子 中 的 取 值 大 得 多 ， 而 前 
面 的 测试 错误 率 在 1.3 左 右 。 为 什么 差距 如 此 之 大 ? 原因 就 在 于 数据 的 
不 同 。 在 手写 识别 的 数据 中 ， 有 1024 个 特征 ， 而 这 些 特征 的 值 有 可 能 
高 达 1.0。 而 在 6.5 世 的 例子 中 ， 所 有 数据 从 -1 到 1 变化 ， 但 是 只 有 2 个 特 
征 。 如 何 才能 知道 该 怎么 设置 呢 ? 说 老实 话 ， 在 写 这 个 例子 时 我 也 不 
知道 。 我 只 是 对 不 同 的 设置 进行 了 多 次 竹 试 。c 的 设置 也 会 影响 到 分 类 
的 结果 。 当 然 ， 和 存在 男 外 的 SVM 形 式 ， 它 们 把 c 同时 考虑 到 了 优化 过 
程 中 ， 例 如 v-SVM。 有 关 v-SVM 的 一 个 较 好 的 讨论 可 以 参考 本 书 第 3 章 
介绍 过 的 Sergios Theodoridis 和 Konstantinos Koutroumbas## 5 RJ Pattern 
Recognition? ° 


2 .Sergios Theodoridis and Konstantinos Koutroumbas, Pattern Recognition , 4th ed. (Academic Press, 2009), 133. 


你 可 能 注意 到 了 一 个 有 趣 的 现象 ， 即 最 小 的 训练 错误 率 并 不 对 应 于 最 
小 的 文 持 向 量 数目 。 另 一 个 值得 注意 的 就 是 ， 线 性 核 函 数 的 效果 并 不 
征 特别 的 糟糕 。 可 以 以 牺牲 线性 核 函 数 的 错误 率 来 换取 分 类 速度 的 提 
E 。 尽 管 这 一 点 在 实际 中 征 可 以 接受 的 ， 但 是 还 得 取决 于 具体 的 应 
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文 持 同 量 机 是 一 种 分 类 絮 。 之 所 以 称 为 “机 ”是 因为 它 会 产生 一 个 二 值 
决策 结果 ， 即 它 是 一 种 决策 “机 ”。 文 持 回 量 机 的 汉化 钳 误 率 较 低 ， 也 
束 是 说 它 具 有 民 好 的 学 习 能 力 ， 且 学 到 的 结果 具有 很 好 的 推广 性 。 这 
A ee 
定式 iX ° 


文 持 问 量 机 试图 通过 求解 一 个 二 次 优化 问题 来 最 大 化 分 类 间隔 。 在 过 

去 ， 训 练 支持 向量 机 常 采用 非常 复杂 并 且 低 效 的 二 次 规划 求解 方法 。 

John Platt 引入 了 SMO 算 法 ， 此 算法 可 以 通过 每 次 只 优化 2 个 alpha 值 来 加 
快 SVM 的 训练 速度 。 本 章 首 先 讨 论 了 一 个 简化 版 本 所 实现 的 SMO 优 化 
过 程 ， 接 着 给 出 了 完整 的 Platt SMO 算 法 。 相 对 于 简化 版 而 言 ， 完 整 版 
算法 不 仅 大 大 地 提高 了 优化 的 速度 ， 还 使 其 存在 一 些 进一步 提高 运行 

速度 的 空间 。 有 关 这 方面 的 工作 ， 一 个 经 常 被 引用 的 参考 文献 惑 

是 “Improvements to Platt's SMO Algorithm for SVM Classifier Design" ' ° 


1. S. S. Keerthi, S. K. Shevade, C. Bhattacharyya, and K. R. K. Murthy, “Improvements to Platt's SMO Algorithm for SVM Classifier Design,” Neural Computation 13, no. 3,( 2001), 


637-49. 


核 方 法 或 者 说 核 技巧 会 将 数据 (有 时 是 非 线 性 数据 ) 从 一 个 低 维 空间 
映射 到 一 个 高 维 空间 ， 可 以 将 一 个 在 低 维 空间 中 的 非 线性 问题 转换 成 
高 维 空间 下 的 线性 问题 来 求解 。 核 方法 不 止 在 SVM 中 适用 ， 还 可 以 用 
Lm » 而 其 中 的 径 向 基 瑟 数 是 一 个 第 用 的 度量 两 个 向 量 距离 
FZ EKI o 


支持 向 量 机 是 一 个 二 类 分 类 器 。 当 用 其 解决 多 类 问题 时 ， 则 需要 额外 
o meque 0 tu QUINTUS 
敏感 。 


下 一 章 将 通过 介绍 一 个 称 为 boosting 的 方法 来 结束 我 们 有 关 分 类 的 介 
绍 。 读 者 不 久 就 会 看 到 ， 在 boosting 和 SVM 之 间 存 在 着 许多 相似 之 处 。 


第 7 章 ”利用 AdaBoost 元 算法 提高 分 类 
性 能 


本 章 内 容 


。 组合 相似 的 分 类 器 来 提高 分 类 性 能 
。 应 用 AdaBoost 算 法 
。 处 理 非 均衡 分 类 问题 


当做 重要 决定 时 ， 大 家 可 能 部 会 考虑 吸取 多 个 专家 而 不 只 是 一 个 人 的 
意见 。 机 器 学 习 处 理 问题 时 又 何尝 不 是 如 此 ? 这 就 是 元 算法 (meta- 
algorithm) 背后 的 思路 。 元 算法 是 对 其 他 算法 进行 组 合 的 一 种 方式 。 
接 下 来 我 们 将 集中 关注 一 个 称 作 AdaBoost 的 最 流行 的 元 算法 。 由 于 某 
些 人 认为 AdaBoost 是 最 好 的 监督 学 习 的 方法 ， 所 以 该 方法 十 机 器 学 习 
工具 箱 中 最 强 有 力 的 工具 之 一 。 


本 章 首 先 讨 论 不 同 分 类 需 的 集成 方法 ， 然 后 主要 关注 boosting 方 法 及 其 
代表 分 类 器 Adaboost。 再 接 下 来 ， 我 们 就 会 建立 一 个 单 层 决策 树 
(decision stump) 分 类 器 。 实 际 上 ， 它 是 一 个 单 节 点 的 决策 树 。 
AdaBoost 算 法 将 应 用 在 上 述 单 层 决 案 树 分 类 器 之 上 。 我 们 将 在 一 个 难 
数据 集 上 应 用 AdaBoost 分 类 器， 以 了 解 该 算法 是 如 何 迅速 超越 其 他 分 


最 后 ， 在 结束 分 类 话题 之 前 ， 我 们 将 讨论 所 有 分 类 右 都 会 过 到 的 一 个 
通用 问题 : 非 均衡 分 类 问题 。 当 我 们 试图 对 样 例 数目 不 均衡 的 数据 进 
行 分 类 时 ， 就 会 遇 到 这 个 问题 。 信 用 卡 使 用 中 的 欺诈 检 测 束 是 非 均衡 
问题 中 的 一 个 极 好 的 例子 ， 此 时 我 们 可 能 会 对 每 一 个 正 例 样 本 都 有 
1000 个 反例 样本 。 在 这 种 情况 下 ， 分 类 器 将 如 何 工作 ? RERS TE 
到 ， 可 能 需要 利用 修改 后 的 指标 来 评价 分 类 器 的 性 能 。 而 就 这 个 问题 
而 言 ， 并 非 AdaBoost 所 独 用 ， 只 是 因为 这 是 分 类 的 最 后 一 章 ， 因 此 到 
了 讨论 这 个 问题 的 最 佳 时 机 。 


71 基于 数据 集 多 重 抽 样 的 分 类 器 


前 面 已 经 介绍 了 五 种 不 同 的 分 类 算法 ， 它 们 各 有 优 缺 点 。 我 们 目 然 可 
以 将 不 同 的 分 类 器 组 合 起 来 ， 而 这 种 组 合 结果 则 被 称 为 集成 方法 

(ensemble method) 或 者 元 算法 (meta-algorithm) 。 使 用 集成 方法 时 
会 有 多 种 形式 : 可 以 是 不 同 算法 的 集成 ， 也 可 以 是 同一 算法 在 不 同 设 
置 下 的 集成 ， 还 可 以 是 数据 集 不 同 部 分 分 配给 不 同 分 类 器 之 后 的 集 

成 。 接 下 来 ， 我 们 将 介绍 基于 同一 种 分 类 器 多 个 不 同 实例 的 两 种 计算 
方法 。 在 这 些 方法 当中 ， 数 据 集 也 会 不 断 变 化 ， 而 后 应 用 于 不 同 的 实 
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应 用 AdaBoost 算 法 。 


AdaBoost 


优点 ， 沁 化 错误 率 低 ， 易 编码 ， 可 以 应 用 在 大 部 分 分 类 右上 ， 无 


参数 调整 。 

缺点 ， 对 离 群 点 敏感 。 

适用 数据 类 型 : 数值 型 和 标 称 型 数据 。 
7.1.1 bagging: 基于 数据 随机 重 抽样 的 分 类 器 构建 方法 
自 举 汇聚 法 (bootstrap aggregating) ， 也 称 为 bagging 方 法 ， 是 在 从 原 
始 数 据 集 选择 S 次 后 得 到 Ss 个 新 数据 集 的 一 种 技术 。 新 数据 集 和 原 数据 
集 的 大 小 相等 。 每 个 数据 集 都 是 通过 在 原始 数据 集中 随机 选择 一 个 样 
本 来 进行 替换 而 得 到 的 :。 这 里 的 替换 就 意味 着 可 以 多 次 地 选择 同一 样 
本 。 这 一 性 质 就 允许 新 数据 集中 可 以 有 重复 的 值 ， 而 原始 数据 集 的 某 
些 值 在 新 集合 中 则 不 再 出 现 。 


1. 这 里 的 意思 是 从 原始 集合 中 随机 选择 一 个 样本 ， 然 后 随机 选择 一 个 样本 来 代替 这 个 样本 。 在 其 他 书 中 ，bagging 中 的 数据 集 通常 被 认为 是 放 回 取样 得 到 的 ， 比 如 要 得 到 


一 个 大 小 为 n 的 新 数据 集 ， 该 数据 集中 的 每 个 样本 都 是 在 原始 数据 集中 随机 抽样 ( 即 抽样 之 后 又 放 回 ) 得 到 的 。 译 者 注 


TES 个 数据 集 建 好 之 后 ， 将 某 个 学 习 算 法 分 别 作用 于 每 个 数据 集束 得 到 
了 S 个 分 类 器 。 当 我 们 要 对 新 数据 进行 分 类 时 ， 就 可 以 应 用 这 S 个 分 类 

e 与 此 同时 ， 选 择 分 类 器 投 票 结 果 中 最 多 的 类 别 作为 最 后 
分 类 结果 。 


当然 ， 还 有 一 些 更 先进 的 bagging 方 法 ， 比 如 随机 森林 (random 
forest) 。 有 关 这 些 方 法 的 一 个 很 好 的 讨论 材料 参见 网 页 
http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm 。 接 


下 来 我 们 将 注意 力 转 向 一 个 与 bagging 类 似 的 集成 分 类 器 方法 boosting。 


7.1.2 boosting 


boosting 是 一 种 与 bagging 很 类 似 的 技术 。 不 论 是 在 boosting 还 是 bagging 
当中 ， 所 使 用 的 多 个 分 类 器 的 类 型 都 是 一 致 的 。 但 是 在 前 者 当中 ， 不 


HIDRATE RITUR TUR EH), BETTY SR n HOT C. IER Ca 
的 分 类 器 的 性 能 来 进行 训练 。boosting 是 通过 集中 关注 被 已 有 分 类 器 错 
分 的 那些 数据 来 获得 狐 的 分 类 郁 。 


由 于 boosting 分 类 的 结果 是 基于 所 有 分 类 妖 的 加 权 求 和 结果 的 ， 因 此 
boosting 与 bagging 不 太一 样 。bagging 中 的 分 类 器 权重 是 相等 的 ， 而 
boosting 中 的 分 类 天 权重 并 不 相等 ， 每 个 权重 代表 的 是 其 对 应 分 类 圳 在 
EPIRA TR FA BLE © 


boosting 方 法 拥有 多 个 版 本 ， 本 章 将 只 关注 其 中 一 个 最 流行 的 版 本 
AdaBoost ° 


AdaBoost 的 一 般 流程 


1. 收集 数据 : 可 以 使 用 任意 方法 。 

2. 准备 数据 : 依赖 于 所 使 用 的 弱 分 类 器 类 型 ， 本 间 使 用 的 是 单 层 决 
策 树 ， 这 种 分 类 器 可 以 处 理 任何 数据 类 型 。 当 然 也 可 以 使 用 任意 
分 类 器 作为 弱 分 类 器 ， 第 2 章 到 第 6 章 中 的 任 一 分 类 器 都 可 以 充当 
弱 分 类 器 。 作 为 弱 分 类 器 ， 人 简单 分 类 器 的 效果 更 好 。 

3. 分 析 数 据 : 可 以 使 用 任意 方法 。 

4. 训练 算法 : AdaBoost 的 大 部 分 时 间 都 用 在 训练 上 ， 分 类 器 将 多 次 
在 同一 数据 集 上 训练 弱 分 类 器 。 

5. 测试 算法 :计算 分 类 的 错误 率 。 

6. 使 用 算法 : 同 SVM 一 样 ，AdaBoost 预 测 两 个 类 别 中 的 一 个 。 如 果 
想 把 它 应 用 到 多 个 类 别 的 场合 ， 那 么 就 要 像 多 类 SVM 中 的 做 法 一 
样 对 AdaBoost 进 行 修 改 。 


下 面 我 们 将 要 讨论 AdaBoost 育 后 的 一 些 理论 ， 并 揭示 其 效果 不 错 的 原 
ER] 。 
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趣 的 理论 问题 。 这 里 的 * 弱 "意味 着 分 类 器 的 性 能 比 随机 猜测 要 略 好 ， 
但 是 也 不 会 好 太 多 。 这 殉 是 说 ， 在 二 分 类 情况 下 弱 分 类 融 的 错误 率 会 


高 于 50%， 而 “ 强 ” 分 类 器 的 错误 率 将 会 低 很 多 。AdaBoost 算 法 即 脱 胎 于 
上 未 理论 门 题 。 


AdaBoost 是 adaptive boosting ( 自 适 应 boosting) 的 缩写 ， 其 运行 过 程 如 
下 : 训练 数据 中 的 每 个 样本 ， 并 赋予 其 一 个 权重 ， 这 些 权 重 构成 了 加 
量 D。 一 开始 ， 这 些 权 重 都 初始 化 成 相等 值 。 首 先 在 训练 数据 上 训练 
出 一 个 弱 分 类 絮 并 计算 该 分 类 器 的 错误 率 ， 然 后 在 同一 数据 集 上 再 次 
训练 弱 分 类 絮 。 在 分 类 絮 的 第 二 次 训练 当中 ， 将 会 重新 调整 每 个 样本 
的 权重 ， 其 中 第 一 次 分 对 的 样本 的 权重 将 会 降低 ， 而 第 一 次 分 错 的 样 
本 的 权重 将 会 提高 。 为 了 从 所 有 弱 分 类 器 中 得 到 最 终 的 分 类 结果 ， 
AdaBoost 为 每 个 分 类 器 都 分 配 了 一 个 权重 值 apha， 这 些 alpha 值 是 基于 
每 个 弱 分 类 器 的 错误 率 进 行 计 算 的 。 其 中 ， 错 误 率 E 的 定义 为 : 


。 二 术 正 确 分 类 的 样本 数目 
| 所 有 样本 数目 


而 alpha 的 计算 公式 如 下 : 
a n | a 
2 X3 J 


AdaBoost 算 法 的 流程 如 图 7-1 所 示 。 


[| 
+ 
X 
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N.0670 / 


图 7-1 AdaBoost 算 法 的 示意 图 。 左 边 是 数据 集 ， 其 中 直方 图 的 不 同 宽 
度 表示 每 个 样 例 上 的 不 同 权 重 。 在 经 过 一 个 分 类 器 之 后 ， 加 权 的 预测 
结果 会 通过 三 角形 中 的 alpha 值 进行 加 权 。 每 个 三 角形 中 输出 的 加 权 结 
果 在 圆 形 中 求 和 ， 从 而 得 到 最 终 的 输出 结果 


计算 出 alpha 值 之 后 ， 可 以 对 权重 向 量 D 进行 更 新 ， 以 使 得 那些 正确 分 
类 的 样本 的 权重 降低 而 错 分 样本 的 权重 升 高 。D 的 计算 方法 如 下 。 


如 琳 某 个 样本 被 正确 分 类 ， 那 么 该 样本 的 权重 更 改 为 : 


I. 
Sum( D) 


Bn = 


而 如 琳 某 个 样本 被 错 分 ， 那 么 该 样本 的 权重 更 改 为 : 


D/ t) e^ 
Sum( D) 


De? = 


i 
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不 断 地 重复 训练 和 调整 权重 的 过 程 ， 直 到 训练 错误 率 为 0 或 者 弱 分 类 群 
的 数目 达到 用 户 的 指定 值 为 止 。 


接 下 来 ， 我 们 将 建立 完整 的 AdaBoost 算 法 。 在 这 之 前 ， 我 们 首先 必须 
通过 一 些 代码 来 建立 弱 分 类 器 及 保存 数据 集 的 权重 。 


7.3 ”基于 单 层 决 策 树 构 建 弱 分 类 器 


单 层 决 策 树 (decision stump， 也 称 决 策 树 桩 ) 是 一 种 简单 的 决策 树 。 

前 面 我 们 已 经 介绍 了 决策 树 的 工作 原理 ， 接 下 来 将 构建 一 个 单 层 决 策 

树 ， 而 它 仅 基于 单个 特征 来 做 决策 。 由 于 这 棵 树 只 有 一 次 分 裂 过 程 ， 
因此 它 实际 上 就 是 一 个 树桩 。 

在 构造 AdaBoost 的 代码 时 ， 我 们 将 首先 通过 一 个 简单 数据 集 来 确保 在 

mo oun 。 然 后 ， 建 立 一 个 叫 adaboost .py 的 新 文件 并 加 入 
0 下 代码 : 


def loadSimpData(): 


datMat - matrix([[ 1. , 2.1], 


[ 2., 1.1] 
ie ee f 
[ids te A 


[ 2. , 1. ]]) 


classLabels - [1.0, 1.0, -1.0, -1.0, 1.0] 


return datMat,classLabels 


图 7-2 给 出 了 上 述 数据 集 的 示意 图 。 如 果 想 要 试 着 从 某 个 坐标 轴 上 选择 
一 个 值 〈 即 选择 一 条 与 坐标 轴 平 行 的 直线 ) 来 将 所 有 的 圆 形 点 和 方形 
扩 分 开 ， 这 显然 是 不 可 能 的 。 这 殊 是 单 层 决 策 树 难 以 处 理 的 一 个 著名 
的 问题 。 通 过 使 用 多 棵 单 层 决策 树 ， 我 们 就 可 以 构建 出 一 个 能 够 对 该 
数据 集 完 全 正确 分 类 的 分 类 天 。 


i 单 层 决策 树 测试 数据 


ur 1.0 1.2 14 1.6 18 2.0 Zu 


图 7-2 ”用 于 检测 AdaBoost 构 建 画 数 的 简单 数据 。 这 不 可 能 仅仅 通过 在 
某 个 坐标 轴 上 选择 某 个 闪 值 来 将 圆 形 点 和 方形 点 分 开 。AdaBoost 需 要 
将 多 个 单 层 决策 树 组 合 起 来 才能 对 该 数据 集 进行 正确 分 类 

通过 键入 如 下 命令 可 以 实现 数据 集 和 类 标签 的 导入 : 


>>> import adaboost 


>>> datMat,classLabels-adaboost.loadSimpData() 


AS Ra, Be POR MCAT CES PRIOR RE IRM o 


BB SRBC HI T Mine BE ME) Tae AF BATE EM E 
值 。 第 二 个 函数 则 更 加 复杂 一 些 ， 它 会 在 一 个 加 权 数 据 集 中 循环 ， 并 
找到 具有 最 低 错 误 率 的 单 层 决策 树 。 


这 个 程序 的 仿 代 码 看 起 来 大 致 如 下 : 


将 最 小 错误 率 minError 设 为 +o 


对 数据 集中 的 每 一 个 特征 〈 第 一 层 循环 ) : 


对 每 个 步 长 (第 二 层 循 环 ) : 


对 每 个 不 等 号 (第 三 层 循 环 ) : 


建立 一 棵 单 层 决策 树 并 利用 加 权 数 据 集 对 它 进 行 测试 


如 果 错 误 率 低 于 minError， 则 将 当 


= 

= 
ihr 
pany 


层 决 策 树 设 为 最 佳 单 层 决策 树 


返回 最 佳 单 层 决策 树 


接 下 来 ， 我 们 开始 构建 这 个 函数 。 将 程序 清单 7-1 中 的 代码 输入 到 
boost ,py 中 并 保存 文件 


程序 清单 7-1 ” 单 层 决策 树 生 成 函数 


def stumpClassify(dataMatrix, dimen, threshVal, threshIneq): 
retArray = ones((shape(dataMatrix)[0],1)) 
if threshIneq == 'lt':retArray[dataMatrix[:,dimen] <= threshVal] = -1.0 
else: 
retArray[dataMatrix[:,dimen] > threshVal] = -1.0 


return retArray 


def buildStump(dataArr,classLabels,D): 


dataMatr 


m,n = sh 


numSteps 


minError 


for i in 


rang 


ix - mat(dataArr); labelMat - mat(classLabels).T 


ape(dataMatrix) 


- inf 


range(n): 


10.0; bestStump = {}; bestClasEst = mat(zeros((m,1))) 


eMin = dataMatrix[:,i].min(); rangeMax = dataMatrix[:,i].max(); 


stepSize - (rangeMax-rangeMin)/numSteps 


for 


error is 96.3 


j in range(-1,int(numSteps)-*1): 


for inequal in ['lt', 'gt']: 


threshVal = (rangeMin + float(j) * stepSize) 


predictedVals - stumpClassify(dataMatrix,i,threshVal,inequal) 


errArr - mat(ones((m,1))) 


errArr[predictedVals -- labelMat] - O 


weightedError - D.T*errArr 


#@ ”计算 加 权 错 误 率 


#print "split: dim %d, thresh %.2f, thresh ineqal: %s, 


f" %(i, threshVal, inequal, weightedError) 


the weighted 


if weightedError « minError: 
minError = weightedError 
bestClasEst - predictedVals.copy() 
bestStump['dim'] - i 
bestStump['thresh'] - threshVal 
bestStump['ineq'] - inequal 


return bestStump,minError,bestClasEst 


上 上述 程序 包含 两 个 函数 。 第 一 个 函数 stumpclassify() wih [X] (a ELE: 
对 数据 进行 分 类 的 。 所 有 在 阐 值 一 边 的 数据 会 分 到 类 别 -1， 而 在 另外 一 
边 的 数据 分 到 类 别 +1。 该 贸 数 可 以 通过 数组 过 小 来 实现 ， 甫 先 将 返回 
数组 的 全 部 元 素 设 置 为 1， 然 后 将 所 有 不 满足 不 等 式 要 求 的 元 素 设 置 
为 -1。 可 以 基于 数据 集中 的 任 一 元 素 进 行 比较 ， 同 时 也 可 以 将 不 等 号 在 
大 于 、 小 于 之 间 切 换 。 


第 二 个 函数 buildstump() Kf 38D] stumpclassify() 函数 所 有 的 可 能 输 
入 值 ， 并 找到 数据 集 上 最 佳 的 单 层 决策 树 。 这 里 的 “最 佳 " 是 基于 数据 
的 权重 癌 量 p 来 定义 的 ， 读 者 很 快 整 会 看 到 其 具体 定义 了 。 在 确保 输入 
数据 符合 矩阵 格式 之 后 ， 整 个 函数 就 开始 执行 了 。 人 然后， 函数 将 构建 
一 个 称 为 beststump 的 空 字典 ， 这 个 字典 用 于 存储 给 定 权 重 辐 量 p 时 所 
得 到 的 最 佳 单 层 决策 树 的 相关 信息 。 变 量 numsteps 用 于 在 特征 的 所 有 
可 能 值 上 进行 遍历 。 而 变量 minError 则 在 一 开始 就 初始 化 成 正 无 穷 
大 ， 之 后 用 于 寻找 可 能 的 最 小 错误 率 。 


ZEREM for 循环 是 程序 最 主要 的 部 分 。 第 一 层 for 循环 在 数据 集 的 
所 有 特征 上 过 历 。 考 虑 到 数值 型 曲 特征 ， 我 们 吏 可 以 通过 计算 最 小 值 
和 最 大 值 来 了 解 应 该 需要 多 大 的 步 长 。 然 后 ， 第 二 层 for 循环 再 在 这 些 
值 上 抽 历 。 甚 至 将 国 值 设置 为 整个 取 值 艺 围 之 外 也 是 可 以 的 。 因 此 ， 
在 取 值 范围 之 外 还 应 该 有 两 个 额外 的 步 又。 最 后 一 个 for 循环 则 是 在 大 
于 和 小 于 之 间 切 换 不 等 式 。 


在 组 套 的 三 层 for 循环 之 内 ， 我 们 在 数据 集 及 三 个 循环 变量 上 调用 
stumpClassify() RRL o ETARA, VAERACR AE 2S TU 
GEE o BE PBRSEMJS—^ C FI [Al terrarr ， 如 果 predictedvals 中 的 值 不 等 
于 labelMat 中 的 真正 类 别 标签 值 ， 那 么 errArr 的 相应 位 置 为 1。 将 错误 
回 量 erraArr 和 权重 向 量 D 的 相应 元 素 相 乘 并 求 和 ， 束 得 到 了 数值 
weightedError @。 这 就 是 AdaBoost 和 分 类 锋 交 互 的 地 方 。 这 里 ， 我 们 
是 基于 权重 向 量 p 而 不 是 其 他 错误 计算 指标 来 评价 分 类 器 的 。 如 果 需 
a A 束 需 要 考虑 D 上 最 佳 分 类 器 所 定义 的 计算 过 


程序 接 下 来 输出 所 有 的 值 。 虽 然 这 一 行 后 面 可 以 注释 掉 ， 但 是 它 对 理 
解 画 数 的 运行 还 是 很 有 帮助 的 。 最 后 ， 将 当前 的 错误 率 与 已 有 的 最 小 
错误 率 进 行 对 比 ， 如 果 当 前 的 值 较 小 ， 那 么 束 在 字典 beststump 中 保存 
该 单 层 决策 树 。 了 字典、 错误 率 和 类 别 估计 值 都 会 返回 给 AdaBoost 算 


法 。 


为 了 解 实际 运行 过 程 ， 在 Python 提 示 符 下 输入 如 下 命令 : 


>>> D = mat(ones((5,1))/5) 


>>> adaboost.buildStump(datMat,classLabels,D) 


split: dim 0, thresh 0.90, thresh ineqal: lt, the weighted error is 0.400 


split: dim 0, thresh 0.90, thresh ineqal: gt, the weighted error is 0.600 


split: dim 0, thresh 1.00, thresh ineqal: lt, the weighted error is 0.400 


- 


split: dim 0, thresh 1.00, thresh ineqal: gt, the weighted error is 0.600 


split: dim 1, thresh 2.10, thresh inegal: lt, the weighted error is 0.600 


split: dim 1, thresh 2.10, thresh ineqal: gt, the weighted error is 0.400 


({'dim': ©, 'ineg': 'lt', 'thresh': 1.3}, matrix([[ 9.2]]), array([[-1.], 


[ 1.]])) 


buildstump 在 所 有 可 能 的 值 上 遍历 的 同时 ， 我 们 也 可 以 看 到 输出 的 结 
条 ， 并 且 最 后 会 看 到 退回 的 字典 。 读 者 可 以 思考 一 下 ， 该 词典 是 否 对 
应 了 最 小 可 能 的 加 权 错 误 率 ?是否 存在 其 他 的 设置 也 能 得 到 相同 的 错 


误 率 ? 
上 壕 单 层 决策 树 的 生成 画 数 是 决策 树 的 一 个 简化 版 本 。 它 就 是 所 谓 的 
弱 学 习 器 ， 即 弱 分 类 算法 。 到 现在 为 上 ， 我 们 已 经 构建 了 单 层 决策 
树 ， 并 生成 了 程序 ， 做 好 了 过 渡 到 完整 AdaBoost 算 法 的 准备 。 在 下 一 
节 当中 ， 我 们 将 使 用 多 个 弱 分 类 器 来 构建 AdaBoost 代 码 。 


7.4 完整 AdaBoost 算 法 的 实现 


在 上 一 节 ， 我 们 构建 了 一 个 基于 加 权 输 入 值 进行 决策 的 分 类 器 。 现 
在 ， 我 们 拥有 了 实现 一 个 完整 AdaBoost 算 法 所 需要 的 所 有 信息 。 我 们 
将 利用 7.3 区 构建 的 单 层 决策 树 来 实现 7.2 节 中 给 出 提纲 的 算法 。 


整个 实现 的 伪 代 码 如 下 : 


对 每 次 迭代 : 


利用 buildStump( ) 函数 找到 最 佳 的 单 层 决 策 树 


将 最 佳 单 层 决 


策 树 加 入 到 单 层 决策 树 数组 


c 


计算 alpha 


计算 新 的 权重 向 量 D 


更 新 累计 类 别 估计 值 


如 果 错 误 率 等 于 90.9， 则 退出 循环 


为 了 将 该 函数 放 入 Python 中 ， 打 开 adaboost.py 文件 并 将 程序 清单 7-2 的 
代码 加 入 其 中 。 


程序 清单 7-2 ”基于 单 层 决策 树 的 AdaBoost 训 练 过 程 


def adaBoostTrainDS(dataArr,classLabels,numIt-40): 


weakClassArr - [] 


3 
M 


shape(dataArr) [0] 


D = mat(ones((m,1))/m) 


aggClassEst = mat(zeros((m,1))) 


for i in range(numIt): 


bestStump,error,classEst - buildStump(dataArr,classLabels,D) 


print "D:",D.T 


alpha = float(0.5*1og((1.0-error)/max(error,1e-16))) 


bestStump['alpha'] = alpha 


weakClassArr.append(bestStump) 


print "classEst: ",classEst.T 


#0 (以 下 两 行 ) 为 下 一 次 迭代 计算 *D* 


expon = multiply(-1*alpha*mat(classLabels).T,classEst) 


D - multiply(D,exp(expon)) 


D = 


#@ (以 下 五 行 ) 错误 率 累 加 计算 


D/D.sum() 


aggClassEst += alpha*classEst 


print "aggClassEst: 


aggErrors 


errorRate 


print "total error: 


multiply(sign(aggClassEst) 


",aggClassEst.T 


aggErrors.sum( )/m 


if errorRate -- 


return weakClassArr 


",errorRate, "An" 


0.0: break 


!-mat(classLabels).T,ones((m,1))) 


>>> classifierArray = adaboost.adaBoostTrainDS(datMat,classLabels,9) 


D: [[ 0.2 0.2 0.2 0.2 0.2]] 


classEst: [[-1. 1. 


aggClassEst: 


total error: 


-1. 


-1. 1.]] 


[[-0.69314718 0.69314718 -0.69314718 -0.69314718 0.69314718]] 


0.2 


D: [[ 0.5 0.125 0.125 0.125 0.125]] 


classEst: [[ 1. 1. 


aggClassEst: 


total error: 


-1. 


-1. 


-1.]] 


[[ 0.27980789 1.66610226 -1.66610226 -1.66610226 -0.27980789]] 


0.2 


D: [[ 0.28571429 0.07142857 0.07142857 0.07142857 0.5 ]] 
classEst: [[ 1. 1. 1. 1. 1.]] 
aggClassEst: [[ 1.17568763 2.56198199 -0.77022252 -0.77022252 0.61607184]] 


total error: 0.0 
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其 中 numIt 征 在 整个 AdaBoost 算 法 中 唯一 需要 用 户 指 定 的 参数 。 


我 们 假定 欠 代 次 数 设 为 9， 如 采 算 法 在 第 三 次 欠 代 之 后 错误 率 为 0， 那 
么 就 会 退出 类 代 过 程 ， 因 此 ， 此 时 就 不 需要 执行 所 有 的 9 次 适 代 过 程 。 
每 次 迭代 的 中 间 结 果 都 会 通过 print 语句 进行 输出 。 后 面 ， 读 者 可 以 把 
print 输出 语句 广 释 挥 ， 但 起 现在 可 以 通过 中 间 结 采 来 了 解 AdaBoost 算 
法 的 内 部 运行 过 程 。 


函数 名 称 尾 部 的 DS 代 表 的 就 是 单 层 决策 树 (decision stump) ， 它 是 
AdaBoost 中 最 流行 的 弱 分 类 右 ， 当 然 并 非 唯一 可 用 的 弱 分 类 右 。 上 壕 
函数 确实 是 建立 于 单 层 决策 树 之 上 的 ， 但 是 我 们 也 可 以 很 容易 对 此 进 
行 修改 以 引入 其 他 基 分 类 器 。 实 际 上 ， 任 意 分 类 器 都 可 以 作为 基 分 类 
俐 ， 本 书 前 面 讲 到 的 任何 一 个 算法 都 行 。 上 壕 算法 会 输出 一 个 单 层 决 
策 树 的 数组 ， 因 此 首先 需要 建立 一 个 新 的 Python 表 来 对 其 进行 存储 。 然 
后 ， 得 到 数据 集中 的 数据 点 的 数目 mn ， 并 建立 一 个 列 癌 量 D e 


[]3&D 非常 重要 ， 它 包含 了 每 个 数据 点 的 权重 。 一 开始 ， 这 些 权 重 都 
赋予 了 相等 的 值 。 在 后 续 的 欠 代 中 ，AdaBoost 算 法 会 在 增加 错 分 数据 
的 权重 的 同时 ， 降 低 正确 分 类 数据 的 权重 。D 是 一 个 概率 分 布 癌 量 ， 
因此 其 所 有 的 元 素 之 和 为 1.0。 为 了 满足 此 要 求 ， 一 开始 的 所 有 元 素 都 
会 被 初始 化 成 Jm。 同 时 ， 程 序 还 会 建立 男 一 个 列 疝 量 aggclassEst , 
记录 每 个 数据 点 的 类 别 估计 累计 值 。 


AdaBoost 算 法 的 核心 在 于 for 循环 ， 该 循环 运行 numrt 次 或 者 直到 训练 
错误 率 为 0 为 止 。 循 环 中 的 第 一 件 事 束 是 利用 前 面 介绍 的 buildstump() 
函数 建立 一 个 单 层 决策 树 。 该 函数 的 输入 为 权重 向 量 D ， 返 回 的 则 是 
利用 DD 而 得 到 的 具有 最 小 错 充 率 的 单 层 决 梨 树 ， 同 时 返回 的 还 有 了 最 小 
的 错误 率 以 及 售 计 的 类 别 向 量 。 


接 下 来 ， 需 要 计算 的 则 是 alpha 值 。 该 值 会 告诉 总 分 类 器 本 次 单 层 决策 

树 输 出 结果 的 权重 。 其 中 的 语句 max(error,， 1e-16) 用 于 确保 在 没有 错 
误 时 不 会 发 生 除 零 洲 出 。 而 后 ，alpha 值 加 入 到 beststump 字典 中 ， 该 字 
典 又 添加 到 列表 中 。 该 词典 包括 了 分 类 所 需要 的 所 有 信息 。 


接 下 来 的 三 行 @ 则 用 于 计算 下 一 次 迭代 中 的 新 权重 回 量 D 。 在 训练 错误 
率 为 0 时 ， 就 要 提前 结束 for 循环 。 此 时 程序 是 通过 aggclassEst 变量 保 
持 一 个 运行 时 的 类 别 估计 值 来 实现 的 @。 该 值 只 是 一 个 浮 点 数 ， 为 了 
得 到 二 值 分 类 结果 还 需要 调用 sign() 函数 。 如 果 总 错误 率 为 0， 则 由 
break 语句 中 止 for 循环 8 


接 下 来 我 们 观察 一 下 中 间 的 运行 结果 。 还 记得 吗 ， 数 据 的 类 别 标签 为 
[1.0, 1.0, -1.0, -1.0, 1.0] ° BFA, D 中 的 所 有 值 都 相等 。 于 
是 ， 只 有 第 一 个 数据 点 被 错 分 了 。 因 此 在 第 二 轮 迭 代 中 ，D 问 量 给 第 
一 个 数据 点 0.5 的 权重 。 这 束 可 以 通过 变量 aggclassEst 的 符号 来 了 解 总 
的 类 别 。 第 二 次 迭代 之 后 ， 我 们 就 会 发 现 第 一 个 数据 点 已 经 正确 分 类 
了 ， 但 此 时 最 后 一 个 数据 点 却 是 错 分 了 。D 癌 量 中 的 最 后 一 个 元 素 变 
成 0.5， 而 DD 疝 量 中 的 其 他 值 都 变 得 非常 小 。 最 后 ， 第 三 次 迭代 之 后 
aggClassEst 所 有 值 的 符号 和 真实 类 别 标签 都 完全 吻合 ， 那 么 训练 错误 
率 为 0， 程 序 就 此 退出 。 


为 了 观察 classifierArray 的 值 ， 键 入 : 


>>> classifierArray 
[{'dim': ©, 'ineq': 'lt', 'thresh': 1.3, 'alpha': 0.69314718055994529], 
{'dim': 1, 'ineq': 'lt', 'thresh': 1.0, 'alpha': 0.9729550745276565}, 


{'dim': ©, 'ineq': 'lt', 'thresh': 0.90000000000000002, 'alpha':0.8958797346 
14027261] 


该 数组 包含 三 部 词典 ， 其 中 包含 了 分 类 所 需要 的 所 有 信息 。 此 时 ， 一 
个 分 类 器 已 经 构建 成 功 ， 而 且 只 要 我 们 愿意 ， 随 时 都 可 以 将 训练 错误 
率 降 到 0。 那 么 测试 错误 率 会 如 何 呢 ? 为 了 观察 测试 错误 率 ， 我 们 需要 
编写 分 类 的 一 些 代码 。 下 一 市 我 们 将 讨论 分 类 。 


7.5 测试 算法 : 基于 AdaBoost 的 分 类 


一 旦 拥有 了 多 个 弱 分 类 器 以 及 其 对 应 的 alpha 值 ， 进 行 测 试 就 变 得 相当 
容易 了。 在 程序 清单 7-2 的 adaBoostTrainDS() 中 ， 我 们 实际 已 经 写 完了 
大 部 分 的 代码 。 现 在 ， 需 要 做 的 就 只 是 将 弱 分 类 器 的 训练 过 程 从 程序 
中 抽出 来 ， 然 后 应 用 到 某 个 具体 的 实例 上 去 。 每 个 弱 分 类 器 的 结果 以 
其 对 应 的 alpha 值 作为 权重 。 所 有 这 些 弱 分 类 属 的 结果 加 权 求 和 驶 得 到 
了 最 后 的 结果 。 在 程序 清单 7-3 中 列 出 了 实现 这 一 过 程 的 所 有 代码 。 然 
后 ， 将 下 列 代 码 添 加 到 adaboost .py 中 ， 束 可 以 利用 它 基 于 
adaboostTrainDS() 中 的 弱 分 类 需 对 数据 进行 分 类 。 


程序 清单 7-3 ”AdaBoost 分 类 函数 


def adaClassify(datToClass,classifierArr): 
dataMatrix - mat(datToClass) 
m = shape(dataMatrix) [0] 
aggClassEst = mat(zeros((m,1))) 
for i in range(len(classifierArr)): 


classEst = stumpClassify(dataMatrix,classifierArr[i] 


['dim'],classifierArr[i]['thresh'],classifierArr[i]['ineq']) 
aggClassEst += classifierArr[i]['alpha']*classEst 
print aggClassEst 


return sign(aggClassEst) 


wee th ay Lee, LbxhüBJadaclassify() HAGA FH VIIZRIBH E 
39} BET A RISO T hake & MEH 
ffldatroclass 以 及 多 个 弱 分 类 器 组 成 的 数组 classifierArr ° NAY 
adaclassify() 首先 将 datToclass 转换 成 了 一 个 NumPy 和 矩阵 ， 并 且 得 到 


datToclass 中 的 待 分 类 样 例 的 个 数 n。 然 后 构建 一 个 0 列 向 量 
aggClassEst , ix FI [A] && Ej adaBoostTrainDS() "RE SL EF o 


接 下 来 ， 遍 历 classifierArr 中 的 所 有 弱 分 类 器 ， 并 基于 
stumpClassify() 对 每 个 分 类 器 得 到 一 个 类 别 的 估计 值 。 在 前 面 构建 单 
层 决 策 树 时 ， 我 们 已 经 见 过 了 stumpclassify() KÈ, ÆRME, KITE 
所 有 可 能 的 树桩 值 上 进行 送 代 来 得 到 具有 最 小 加 权 错 误 率 的 单 层 决策 
树 。 而 这 里 我 们 只 是 简单 地 应 用 了 单 层 决策 树 。 输 出 的 类 别 估计 值 乘 
LARRY alph HA a A Ellaggclassest 上 ， 束 完成 了 这 一 
过 程 。 上 壕 程序 中 加 入 了 一 条 print 语句 ， 以 便 我 们 了 解 aggclassEst 
每 次 迭代 后 的 变化 结果 。 最 后 ， 程 序 返 回 aggclassEst 的 符号 ， 即 如 果 
aggClassEst 大 于 0 则 返回 +1， 而 如 果 小 于 0 则 返回 -1 。 


我 们 再 看 看 实际 中 的 运行 效果 。 加 入 程序 清单 7-3 中 的 代码 之 后 ， 在 
Python 所 示人 符 下 输入 : 


>>> reload(adaboost) 


«module 'adaboost' from 'adaboost.py'> 


如 果 没 有 弱 分 类 器 数组 ， 可 以 输入 如 下 命令 : 
>>> datArr,labelArr-adaboost.loadSimpData() 


>>> classifierArr = adaboost.adaBoostTrainDS(datArr, labelArr, 30) 


于 是 ， 可 以 输入 如 下 命令 进行 分 类 : 
>>> adaboost.adaClassify([0, 0],classifierArr) 
[[-0.69314718]] 
[[-1.66610226]] 


[[-2.56198199]] 


matrix([[-1.]]) 
HARI, BACNET, S308 [0,0]18] 47 9S AG ROR RR, ^ 24 
SA, 我们 也 可 以 在 其 他 点 上 进行 分 类 : 

>>> adaboost.adaClassify([[5, 5],[0,0]],classifierArr) 


[[ 0.69314718] 


[-2.56198199]] 
matrix([[ 1.], 


[-1.]]) 


这 两 个 点 的 分 类 结果 也 会 随 着 迭代 的 进行 而 越 来 越 强 。 在 下 一 节 中 ， 
到 一 个 规模 更 大 、 难 度 也 更 大 的 真实 数据 集 


7.6 “示例 : 在 一 个 难 数据 集 上 应 用 
AdaBoost 
本 蔬 我 们 将 在 第 4 章 给 出 的 马 疝 病 数据 集 上 应 用 AdaBoost 分 类 器 。 在 第 
4 章 ， 我 们 曾经 利用 Logistic 回 归来 预测 患 有 疝 病 的 蕊 是 否 能 够 存活 。 而 
在 本 市 ， 我 们 则 想 要 知道 如 果 利 用 多 个 单 层 决 俩 树 和 AdaBoost 能 不 能 
预测 得 更 准 。 

示例 : 在 一 个 难 数 据 集 上 的 AdaBoost 应 用 


1. 收集 数据 : 提供 的 文本 文件 。 
2. 准备 数据 : 确保 类 别 标签 是 +1 和 -1 而 非 1 和 0 © 


. 分 析 数 据 : 手工 检查 数据 。 

.训练 算法 : 在 数据 上 ， 利 用 adaBgoostTrainDs() 函数 训练 出 一 系列 
的 分 类 器 。 

.测试 算法 : 我 们 拥有 两 个 数据 集 。 在 不 采用 随机 抽样 的 方法 下 ， 
我 们 束 会 对 AdaBoost 和 Logistic 回 归 的 结果 进行 完全 对 等 的 比较 。 

. 使 用 算法 : 观察 该 例子 上 的 错误 率 。 不 过 ， 也 可 以 构建 一 个 Web 网 
站 ， 让 强 马 师 输 入 马 的 症状 然后 预测 马 是 否 会 死去 。 


在 使 用 上 述 程 序 清单 中 的 代码 之 前 ， 必 须要 有 同文 件 中 加 载 数据 的 方 
法 。 一 个 和 常见 的 loadpataset() 的 程序 如 下 所 示 。 


程序 清单 7-4 ” 自 适 应 数据 加 载 函 数 


def loadDataSet(fileName): 


Ul IU 


[op 


numFeat - len(open(fileName).readline().split('Nt')) 


dataMat - []; labelMat - [] 


fr - open(fileName) 


for line in fr.readlines(): 


lineArr -[] 


curLine = line.strip().split('\t') 


for i in range(numFeat-1): 


lineArr.append(float(curLine[i])) 


dataMat.append(lineArr) 


labelMat.append(float(curLine[-1])) 


return dataMat, labelMat 


之 前 ， 读者 可 能 多 次 见 过 了 了 上述 程 序 清单 中 的 loadDataset() 函数 。 在 
这 里 ， 并 不 必 指 定 每 个 文件 中 的 特征 数目 ， 所 以 这 里 的 函数 与 前 面 的 
稍 有 不 同 。 该 函数 能 够 目 动 检测 出 特征 的 数目 。 同 时 ， 该 贸 数 也 假定 
最 后 一 个 特征 是 类 别 标签 。 


将 上 述 代码 添加 a 到 adaboost .py 文件 中 并 且 将 其 保存 之 后 ， 束 可 以 输入 
如 下 命令 来 使 用 上 述 函 数 : 


>>> datArr,labelArr = adaboost.loadDataSet('horseColicTraining2.txt') 
>>> classifierArray = adaboost.adaBoostTrainDS(datArr, labelArr,10) 
total error: 0.284280936455 


total error: 0.284280936455 


total error: 0.230769230769 

>>> testArr,testLabelArr = adaboost.loadDataSet('horseColicTest2.txt') 
>>> prediction10 = adaboost.adaClassify(testArr,classifierArray) 

To get the number of misclassified examples type in: 

>>> errArrzmat(ones((67,1))) 

>>> errArr[predictioni0!-mat(testLabelArr).T].sum() 


16.0 


要 得 到 错误 率 ， 只 需 将 上 述 错 分 样 例 的 个 数 除 以 67 即 可 。 


将 弱 分 类 器 的 数目 设 定 为 1 到 10 000 之 间 的 几 个 不 同 数字 ， 并 运行 上 壕 
过 程 。 这 时 ， 得 到 的 结果 就 会 如 表 7-1 所 示 。 在 该 数据 集 上 得 到 的 错误 
率 相当 低 。 如 果 没 忘 的 话 ， 在 第 5 章 中 ， 我 们 在 同一 数据 集 上 采用 
Logistic 回 归 得 到 的 平均 错误 率 为 0.35。 而 采用 AdaBoost， 得 到 的 错误 
率 就 永远 不 会 那么 高 了 。 从 表 中 可 以 看 出 ， 我 们 仅仅 使 用 50 个 弱 分 类 
Br, DUAF) T EEEE ° 


表 7-1 不 同 弱 分 类 器 数目 情况 下 的 AdaBoost 测 试 和 分 类 错误 率 。 该 数 
据 集 是 个 难 数据 集 。 通 常 情况 下 ，AdaBoost 会 达到 一 个 稳定 的 测试 错 
误 率 ， 而 并 不 会 随 分 类 器 数目 的 增多 而 提高 


分 类 器 数目 ”训练 错误 率 (%) ”测试 错误 率 (90) 
1 0.28 0.27 


10 0.23 0.24 


0. 

0. 

500 0. 
1000 0. 
0. 


9 
9 
6 0.25 
4 
10000 il 


观察 表 7-1 中 的 测试 错误 率 一 位 ， 丈 会 发 现 测 试 错 误 率 在 达到 了 一 个 最 
小 值 之 后 又 开始 上 升 了 。 这 类 现象 称 之 为 过 拟 合 (overfitting， 也 称 过 
学 习 ) 。 有 文献 声称 ， 对 于 表现 好 的 数据 集 ，AdaBoost 的 测试 错误 率 
束 会 达到 一 个 稳定 值 ， 并 不 会 随 着 分 类 句 的 增多 而 上 升 。 或 许 在 本 例 
子 中 的 数据 集 也 称 不 上 “表现 好 ”。 该 数据 集 一 开始 有 309% 的 缺失 值 ， 对 
于 Logistic 回 归 而 言 ， 这 些 缺 失 值 的 假设 束 是 有 效 的 ， 而 对 于 决策 树 却 
可 能 并 不 合适 。 如 果 回 到 数据 集 ， 将 所 有 的 0 值 共 换 成 其 他 值 ， 或 者 给 
定 类 别 的 平均 值 ， 那 么 能 否 得 到 更 好 的 性 能 ? 


很 多 人 都 认为 ，AdaBoost 和 SVM 是 监督 机 器 学 习 中 最 强大 的 两 种 方 
法 。 实 际 上 ， 这 两 者 之 间 拥 有 不 少 相 似 之 处 。 我 们 可 以 把 弱 分 类 器 想 
象 成 SVM 中 的 一 个 核 函 数 ， 也 可 以 按照 最 大 化 某 个 最 小 间隔 的 方式 重 
瑟 AdaBoost 算 法 。 而 它们 的 不 同 就 在 于 其 所 定义 的 间隔 计算 方式 有 所 
不 同 ， 因 此 导致 的 结果 也 不 同 。 特 别 是 在 高 维 空间 下 ， 这 两 者 之 间 的 
差异 就 会 更 加 明显 。 


在 下 一 市 中 ， 我 们 不 再 讨论 AdaBoost， 而 是 转 而 关注 所 有 分 类 器 中 的 


一 个 普遍 问题 。 


7.7“ 非 均衡 分 类 问题 


在 我 们 结束 分 类 这 个 主题 之 前 ， 还 必须 讨论 一 个 问题 。 在 前 面 六 草 的 
所 有 分 类 介绍 中 ， 我 们 都 假设 所 有 类 别 的 分 类 代价 是 一 样 的 。 例 如 在 
第 5 章 ， 我 们 构建 了 一 个 用 于 检测 患 疝 病 的 马匹 是 否 存活 的 系统 。 在 那 
里 ， 我 们 构建 了 分 类 器 ， 但 是 并 没有 对 分 类 后 的 情形 加 以 讨论 。 假 如 
某 人 给 我 们 奉 来 一 匹 马 ， 他 和 希望 我 们 能 预测 这 匹 马 能 否 生存 。 我 们 说 
马 会 死 ， 那 么 他 们 就 可 能 会 对 马 实施 安乐 死 ， 而 不 是 通过 给 马 喂 药 来 
延缓 其 不 可 避免 的 死亡 过 程 。 我 们 的 预测 也 许 是 错误 的 ， 马 本 来 是 可 
以 继续 活着 的 。 上 毕竟， 我 们 的 分 类 器 只 有 80% 的 精确 率 (accuracy) ° 
如 果 我 们 预测 销 误 ， 那 么 我 们 将 会 错 杀 了 一 个 如 此 昂 贯 的 动物 ， 更 不 
要 说 人 对 马 还 存在 情感 上 的 依恋 。 


HATED RHE? 如 有 条 收 件 箱 中 会 出 现 菜 些 垃圾 邮件 ， 但 合法 邮 
件 永远 不 会 扔 进 垃圾 邮件 夹 中 ， 那 么 人 们 是 否 会 满意 呢 ? 癌症 检测 又 
如 何 呢 ? 只 要 患 病 的 人 不 会 得 不 到 治疗 ， 那 么 再 找 一 个 医生 来 看 看 会 
不 会 更 好 呢 〈 即 情愿 误 判 也 不 漏 判 ) ? 


还 可 以 举 出 很 多 很 多 这 样 的 例子 ， 坦 白地 说 ， 在 大 多 数 情 况 下 不 同类 
别 的 分 类 代价 并 不 相等 。 在 本 节 中 ， 我 们 将 会 考察 一 种 新 的 分 类 郁 性 
能 度量 方法 ， 并 通过 图 像 技 术 来 对 在 上 述 非 均衡 问题 下 不 同 分 类 器 的 
性 能 进行 可 视 化 处 理 。 人 然后， 我 们 考察 这 两 种 分 类 右 的 变换 算法 ， 它 
们 能 够 将 不 同 决策 的 代价 考虑 在 内 。 


7.7.1 ”其 他 分 类 性 能 度量 指标 ， 正确 率 、 召 回 率 及 ROC 曲线 


到 现在 为 上 ， 本 书 都 是 基于 错误 率 来 衡量 分 类 器 任务 的 成 功 程度 的 。 
普 误 率 指 的 是 在 所 有 测试 样 例 中 错 分 的 样 例 比例 。 实 际 上 ， 这 样 的 度 
量 错误 掩盖 了 样 例 如 何 被 分 错 的 事实 。 在 机 器 学 习 中 ， 有 一 个 普遍 适 
用 的 称 为 混淆 矩阵 (confusion matrix) 的 工具 ， 它 可 以 帮助 人 们 更 好 
地 了 解 分 类 中 的 销 误 。 有 这 样 一 个 关于 在 房子 周围 可 能 发 现 的 动物 类 
型 的 预测 ， 这 个 预测 的 三 类 问题 的 混 清 矩阵 如 表 7-2 所 示 。 


表 7-2 一 个 三 类 问题 的 混 清 矩阵 


利用 混淆 矩阵 就 可 以 更 好 地 理解 分 类 中 的 错误 了 。 如 果 矩 阵 中 的 非 对 
角 元 素 均 为 0， 就 会 得 到 一 个 完美 的 分 类 器 。 


接 下 来 ， 我 们 考虑 另外 一 个 混淆 和 矩阵， 这 次 的 矩阵 只 针对 一 个 简单 的 
二 类 问题 。 在 表 7-3 中 ， 给 出 了 该 混 消 矩阵 。 在 这 个 二 类 问题 中 ， 如 果 
将 一 个 正 例 判 为 正 例 ， 那 么 就 可 以 认为 产生 了 一 个 真正 例 (True 

Positive，TP， 也 称 真 阳 ) ; 如 果 对 一 个 反例 正确 地 判 为 反例 ， 则 认为 
产生 了 一 个 真 反例 (True Negative，TN， 也 称 真 阴 ) 。 相 应 地 ， 另 外 
两 种 情况 则 分 别称 为 伪 反 例 (False Negative，FN， 也 称 假 明 ) 和 伪 正 
例 (False Positive, FP, t&EMEDH) 。 这 4 种 情况 如 表 7-3 所 示 。 


表 7-3 ”一 个 二 类 问题 的 混淆 矩阵， 其 中 的 输出 采用 了 不 同 的 类 别 标签 


预测 结果 
+] -] 
+1 真正 例 ( TP 伪 反 例 CEN ) 
一 ! 伪 正 例 CFP) KI 0| CIN) 


在 分 类 中 ， 当 某 个 类 别 的 重要 性 高 于 其 他 类 别 时 ， 我 们 就 可 以 利用 上 
述 定 义 来 定义 出 多 个 比 错误 率 更 好 的 新 指标 。 第 一 个 指标 是 正确 率 
(Precision) ， 它 等 于 TP/(TP+FP)， 给 出 的 是 预测 为 正 例 的 样本 中 的 真 
正 正 例 的 比例 。 第 二 个 指标 是 召回 率 (Recall) ， 它 等 于 
TP/(TP+FN)， 给 出 的 古 预测 为 正 例 的 真实 正 例 占 所 有 真实 正 例 的 比 
例 。 在 召回 率 很 大 的 分 类 器 中 ， 真 正 判 错 的 正 例 的 数目 并 不 多 。 


我 们 可 以 很 容易 构造 一 个 高 正确 率 或 高 召回 率 的 分 类 右 ， 但 是 很 难 同 
时 保证 两 者 成 立 。 如 果 将 任何 样本 都 判 为 正 例 ， 那 么 召回 率 达 到 百 分 
之 百 而 此 时 正确 率 很 低 。 构 建 一 个 同时 使 正确 率 和 召回 率 最 大 的 分 类 
堪 生 具有 挑战 性 的 。 


另 一 个 用 于 度量 分 类 中 的 非 均 衡 性 的 工具 是 ROC 曲 线 (ROC curve) , 

ROC 代 表 接 收 者 操作 特征 (receiver operating characteristic) ， 它 最 早 在 

。 图 7-3 给 出 了 一 条 ROC 
线 的 例子 。 


AdaBoost 马 疝 病 检测 系统 的 ROC 曲 线 


die Sa 


940 0.2 04 0.6 0.8 10 
假 阳 率 


图 7-3 ”利用 10 个 单 层 决 策 树 的 AdaBoost 马 疝 病 检测 系统 的 ROC 曲线 


在 图 7-3 的 ROC 曲 线 中 ， 给 出 了 两 条 线 ， 一 条 虚线 一 条 实 线 。 图 中 的 横 
轴 是 伪 正 例 的 比例 ( 假 阳 率 =FP/(FP+TN)) ， 而 纵 轴 是 真正 例 的 比例 

( 真 阳 率 =TP/(TP+FN)) 。ROC 曲 线 给 出 的 是 当 阔 值 变化 时 假 阳 率 和 真 
阳 率 的 变化 情况 。 左 下 角 的 点 所 对 应 的 是 将 所 有 样 例 判 为 反例 的 情 
况 ， 而 右上 角 的 点 对 应 的 则 是 将 所 有 样 例 判 为 正 例 的 情况 。 虚 线 给 出 
的 是 随机 猜测 的 结果 曲线 。 


ROC 曲 线 不 但 可 以 用 于 比较 分 类 器 ， 还 可 以 基于 成 本 效益 (cost- 
versus-benefit) 分 析 来 做 出 决策 。 由 于 在 不 同 的 靖 值 下 ， 不 同 的 分 类 器 
的 表现 情况 可 能 各 不 相同 ， 因 此 以 某 种 方式 将 它们 组 合 起 来 或 许 会 

有 意义 。 如 果 只 是 简单 地 观察 分 类 器 的 错误 率 ， 那 么 我 们 就 难以 得 到 
这 种 更 深入 的 洞察 效果 了 。 


在 理想 的 情况 下 ， 最 佳 的 分 类 器 应 该 尽 可 能 地 处 于 左上 角 ， 这 就 意味 
着 分 类 器 在 假 阳 率 很 低 的 同时 获得 了 很 高 的 真 阳 率 。 例 如 在 垃圾 邮件 
的 过 滤 中 ， 这 就 相当 于 过 滤 了 所 有 的 垃圾 邮件 ， 但 没有 将 任何 合法 邮 
件 误 识 为 垃圾 邮件 而 放 入 垃圾 邮件 的 文件 夹 中 。 


对 不 同 的 ROC 曲 线 进 行 比 较 的 一 个 指标 是 曲线 下 的 面积 (Area Unser 

the Curve，AUC) 。AUC 给 出 的 是 分 类 器 的 平均 性 能 值 ， 当 然 它 并 不 
能 完全 代替 对 整 条 曲线 的 观察 。 一 个 完美 分 类 器 的 AUC 为 1.0， 而 随机 
崩 测 的 AUC 则 为 0.5。 


为 了 男 出 ROC 曲 线 ， 分 类 器 必须 提供 每 个 样 例 被 判 为 阳性 或 者 阴性 的 
可 信 程度 值 。 尺 管 大 多 数 分 类 器 都 能 做 到 这 一 点 ， 但 是 通常 情况 下 ， 
这 些 值 会 在 最 后 输出 离散 分 类 标签 之 前 被 清除 。 朴 素 贝 叶 斯 能 够 提供 
一 个 可 能 性 ， 而 在 Logistic 回 归 中 输入 到 Sigmoid 函 数 中 的 是 一 个 数值 。 
在 AdaBoost 和 SVM 中 ， 都 会 计算 出 一 个 数值 然后 输入 到 sign() 函数 

中 。 所 有 的 这 些 值 都 可 以 用 于 衡量 给 定 分 类 器 的 预测 强度 。 为 了 创建 
ROC 曲 线 ， 首 先 要 将 分 类 样 例 按 照 其 预测 强度 排序 。 先 从 排名 最 低 的 
样 例 开 始 ， 所 有 排名 更 低 的 样 例 都 被 判 为 反例 ， 而 所 有 排名 更 高 的 样 
例 都 被 判 为 正 例 。 该 情况 的 对 应 点 为 <1.0,1.0>。 然 后 ， 将 其 移 到 排名 次 
低 的 样 例 中 去 ， 如 果 该 样 例 属 于 正 例 ， 那 么 对 真 阳 率 进 行 修 改 ;， Un 
该 样 例 属于 反例 ， 那 么 对 假 阴 率 进 行 修改 。 

上 述 过 程 听 起 来 有 点 容易 让 人 混 消 ， 但 是 如 果 阅 读 一 下 程序 清单 7-5 中 
一 切 就 会 变 得 一 目 了 然 了 。 打 开 adaboost .py 文件 并 加 入 如 下 


程序 清单 7-5 ROC 曲 线 的 绘制 及 AUC 计 算 画 数 


def plotROC(predStrengths, classLabels): 


import matplotlib.pyplot as plt 


cur - (1.0,1.0) 


ysum = 0.0 


numPosClas = sum(array(classLabels)==1.0) 


yStep 1/float(numPosClas) 


xStep 


1/float(len(classLabels)-numPosClas) 


#@ 获取 排 好 序 的 索引 


sortedIndicies = predStrengths.argsort() 


fig = plt.figure() 


fig.clf() 


ax - plt.subplot(111) 


for index in sortedIndicies.tolist()[0]: 


if classLabels[index] -- 1.0: 


delX - 0; delY - yStep; 


else: 


delX - xStep; delY - 0; 


ySum += cur[1] 


ax.plot([cur[0],cur[0]-delX], [cur[1],cur[1]-delY], c='b') 


cur = (cur[0]-delX,cur[1]-delY) 


ax.plot([9,1], [0,1], 'b--') 


plt.xlabel('False Positive Rate'); plt.ylabel('True Positive Rate') 
plt.title('ROC curve for AdaBoost Horse Colic Detection System') 
ax.axis([0,1,0,1]) 

plt.show() 


print "the Area Under the Curve is: ",ySum*xStep 


上 述 程 序 中 的 函数 有 两 个 输入 参数 ， 第 一 个 参数 是 一 个 NumPy 数 组 或 
者 一 个 行 回 量 组 成 的 矩阵 。 该 参数 代表 的 则 是 分 类 器 的 预测 强度 。 在 
分 类 器 和 训练 函数 将 这 些 数 值 应 用 到 sign() HAZ, Esme Zar 
生 了 。 尽 管 很 快 就 可 以 看 到 该 函数 的 实际 执行 效果 ， 但 是 我 们 还 是 要 
先 讨论 一 下 这 段 代 码 。 函 数 的 第 二 个 输入 参数 是 先前 使 用 过 的 
classLabels 。 我 们 首先 导入 pyplot ， 然 后 构建 一 个 浮 点 数 二 元 组 ， 并 
将 它 初 始 化 为 (1,0,1.0)。 该 元 组 保留 的 是 绘制 光标 的 位 置 ， 变 量 ysum DU] 
用 于 计算 AUC 的 值 。 接 下 来 ， 通 过 数组 过 滤 方 式 计 算 正 例 的 数 日 ， 并 
将 该 值 赋 给 numpPosclas 。 该 值 先是 确定 了 在 y 坐标 轴 上 的 步 进 数目 ， 接 
着 我 们 在 x 轴 和 y 轴 的 0.0 到 1.0 区 间 上 绘 点 ， 因 此 y 轴 上 的 步 长 是 
1.0/numPosClas。 类 似 地 ， 就 可 以 得 到 x 轴 的 步 长 了 。 


接 下 来 ， 我 们 得 到 了 排序 索引 @， 但 是 这 些 索引 是 按照 最 小 到 最 大 的 
顺序 排列 的 ， 因 此 我 们 需要 从 点 <1.0,1.0> 开 始 绘 ， 一 直到 <0,0>。 跟 着 
的 三 行 代码 则 是 用 于 构建 画笔 ， 并 在 所 有 排序 值 上 进行 循环 。 这些 值 
在 一 个 NumPy 数 组 或 者 矩阵 中 进行 排序 ，Python 则 和 需要 一 个 表 来 进行 
迭代 循环 ， 因 此 我 们 需要 调用 tolist() 方法 。 当 遍历 表 时 ， 每 得 到 一 
个 标签 为 1.0 的 类 ， 则 要 沿 着 y 轴 的 方向 下 降 一 个 步 长 ， 即 不 断 降低 真 
阳 率 。 类 似 地 ， 对 于 每 个 其 他 类 别 的 标签 ， 则 是 在 x 轴 方 向 上 倒退 了 一 
DEK 〈 假 阴 率 方向 ) 。 上 述 代 码 只 关注 1 这 个 类 别 标签 ， 因 此 就 无 所 


谓 是 采用 1/0 标 签 还 是 +1/-1 标 签 。 


为 了 计算 AUC， 我 们 需要 对 多 个 小 矩形 的 面积 进行 素 加 。 这 些小 矩形 

的 宽度 是 xstep ， 因 此 可 以 先 对 所 有 和 矩形 的 高 度 进行 累加 ， 最 后 再 乘 以 
xStep 得 到 其 总 面积 。 所 有 高 度 的 和 (ysum ) 随 着 x 轴 的 每 次 移动 而 渐 
次 增加 。 一 旦 决定 了 是 在 x 轴 还 是 y 轴 方 同上 进行 移动 的 ， 我 们 束 可 以 


在 当前 扣 和 新 点 之 间 画 出 一 条 线段 。 然 后 ， 当 前 点 cur 更 新 了 。 最 后 ， 
我 们 惑 会 得 到 一 个 像样 的 绘图 并 将 AUC 打 印 到 终 闪 输出 。 


a 2 解 实际 运行 效果 ， 我 们 需要 将 adaboostTrainDS() 的 最 后 一 行 代码 替 


return weakClassArr,aggClassEst 


以 得 到 aggclassEst 的 值 。 然 后 ， 在 Python 提示 符 下 键入 如 下 命令 : 

>>> reload(adaboost) 

«module 'adaboost' from 'adaboost.pyc'» 

>>> datArr,labelArr = adaboost.loadDataSet('horseColicTraining2.txt') 

>>> classifierArray,aggClassEst = 

adaboost.adaBoostTrainDS(datArr,labelArr,10) 

>>> adaboost.plotROC(aggClassEst.T,labelArr) 

the Area Under the Curve is: 0.858296963506 
这 时 ， 我 们 也 会 得 到 和 图 7-3 一 样 的 ROC 曲 线 。 这 是 在 10 个 弱 分 类 器 
下 ，AdaBoost 算 法 性 能 的 结 采 。 我 们 还 记得 ， 妆 初 我 们 在 50 个 弱 分 志 
器 下 得 到 了 最 优 的 分 类 性 人 能， 那么 这 种 情况 下 的 ROC 曲 线 会 如 何 呢 ? 
这 时 的 AUC 坪 不 古玩 好 呢 ? 
7.7.2 ”基于 代价 画 数 的 分 类 器 决策 控制 
除了 凋 太 分 类 器 的 病 值 之 外 ， 我 们 还 有 一 些 其 他 可 以 用 于 处 理 非 均衡 
分 类 的 代价 的 方法 ， 其 中 的 一 种 称 为 代价 敏感 的 学 习 (cost-sensitive 
learning) 。 考 虑 表 7-4 中 的 代价 和 矩阵， 第 一 张 表 给 出 的 是 到 目前 为 止 分 


类 器 的 代价 矩阵 (代价 不 是 0 就 是 1) 。 我 们 可 以 基于 该 代价 矩阵 计算 
其 总 代价 : TP*@+FN*1+FP*1+TN*@ 。 接 下 来 我 们 考虑 下 面 的 第 二 张 表 ， 


基于 该 代价 窍 阵 的 分 类 代价 的 计算 公式 为 : TP*(-5)*FN*1*FP*50«TN*0O 
°。 采 用 第 二 张 表 作为 代价 矩阵 时 ， 两 种 分 类 错误 的 代价 是 不 一 样 的 。 
类 似 地 ， 这 两 种 正确 分 类 所 得 到 的 收益 也 不 一 样 。 如 果 在 构建 分 类 峰 
上 时， 知道 了 这 些 代价 值 ， 那 么 就 可 以 选择 付出 最 小 代价 的 分 类 器 。 


表 7-4 ”一 个 二 类 问题 的 代价 矩阵 


真实 结果 


预测 结果 


真实 结果 


在 分 类 算法 中 ， 我 们 有 很 多 方法 可 以 用 来 引入 代价 信息 。 在 AdaBoost 
中 ， 可 以 基于 代价 函数 来 调整 错误 权重 同 量 D。 在 朴 聂 贝 叶 斯 中 ， 可 
以 选择 具有 最 小 期 望 代价 而 不 是 最 大 概率 的 类 别 作为 最 后 的 结果 。 在 
SVM 中 ， 可 以 在 代价 函数 中 对 于 不 同 的 类 别 选择 不 同 的 参数 c ^ PY 
做 法 束 会 给 较 小 类 更 多 的 权重 ， 即 在 训练 时 ， 小 类 当中 只 允许 更 少 的 


错误 。 
7.7.3 ”处 理 非 均衡 问题 的 数据 抽样 方法 


另外 一 种 针对 非 均 衡 问题 调节 分 类 器 的 方法 ， 束 是 对 分 类 妖 的 训练 数 
据 进 行 改造 。 这 可 以 通过 欠 抽 样 (undersampling) 或 者 过 

(oversampling) 来 实现 。 过 抽样 意味 着 复制 样 例 ， 而 从 抽样 意味 着 删 
除 样 例 。 不 管 采用 哪 种 方式 ， 数 据 都 会 从 原始 形式 改造 为 新 形式 。 抽 
样 过 程 则 可 以 通过 随机 方式 或 者 某 个 预定 方式 来 实现 。 


通常 也 会 存在 某 个 罕见 的 类 别 需 要 我 们 来 识别 ， 比 如 在 信用 卡其 诈 当 
中 。 如 前 所 述 ， 正 例 类 别 属于 罕见 类 别 。 我 们 布 望 对 于 这 种 罕见 类 别 
能 尽 可 能 保留 更 多 的 信息 ， 因 此 ， 我 们 应 该 保留 正 例 类 别 中 的 所 有 样 
例 ， 而 对 反例 类 别 进行 欠 抽 样 或 者 样 例 删 除 处 理 。 这 种 方法 的 一 个 缺 


点 就 在 于 要 确定 哪些 样 例 需 要 进行 剔除 。 但 是 ， 在 选择 剔除 的 样 例 中 
可 能 携带 了 剩余 样 例 中 并 不 包含 的 有 价值 信息 。 


上 述 问 题 的 一 种 解决 办 法 ， 融 是 选择 那些 离 决 寅 边界 较 远 的 样 例 进 行 
删除 。 假 定 我 们 有 一 个 数据 集 ， 其 中 有 50 例 信用 卡 欺诈 交易 和 5000 例 
合法 交易 。 如 来 我 们 想 要 对 合法 交易 样 例 进 行 欠 抽样 处 理 ， 使 得 这 两 
类 数据 比较 均衡 的 话 ， 那 么 我 们 就 需要 去 掉 4950 个 样 例 ， 而 这 些 样 例 
中 可 能 包含 很 多 有 价值 的 信息 。 这 看 上 去 有 些 极 端 ， 因 此 有 一 种 替代 
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法 2 


要 对 正 例 类 别 进行 过 抽样 ， 我 们 可 以 复制 已 有 样 例 或 者 加 入 与 已 有 样 
例 相 似 的 点 。 一 种 方法 是 加 入 已 有 数据 点 的 择 值 点 ， 但 是 这 种 做 法 可 
能 会 导致 过 拟 合 的 问题 。 
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更 好 的 分 类 结果 。 有 一 些 利用 不 同 分 类 器 的 集成 方法 ， 但 是 本 章 只 介 
绍 了 那些 利用 同一 类 分 类 器 的 集成 方法 。 


多 个 分 类 磊 组 合 可 能 会 进一步 辣 显 出 单 分 类 口 的 不 足 ， 比 如 过 拟 合 问 
题 。 如 有 果 分 类 器 之 间 差 别 显 着 ， 那 么 多 个 分 类 器 组 合 束 可 能 会 缓解 这 
mie 0 Ran Z AA Ze Hl n] Die SEAS BE eA PR EBL 
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本 章 介绍 的 两 种 集成 方法 是 bagging 和 boosting。 在 bagging 中 ， 是 通过 
随机 抽样 的 奉 换 方式 ， 得 到 了 与 原始 数据 集 规 模 一 样 的 数据 集 。 而 
boosting 在 bagging 的 思路 上 更 进 了 一 步 ， 它 在 数据 集 上 顺序 应 用 了 多 个 
不 同 的 分 类 器 。 男 一 个 成 功 的 集成 方法 就 是 随机 森林 ， 但 是 由 于 随机 
森林 不 如 AdaBoost 流 行 ， 所 以 本 书 并 没有 对 它 进行 介绍 。 


本 章 介 绍 了 boosting 方 法 中 最 流行 的 一 个 称 为 AdaBoost 的 算法 。 
AdaBoost 以 弱 学 习 妖 作为 基 分 类 絮 ， 并 旦 输 入 数据 ， 使 其 通过 权重 癌 
量 进行 加 权 。 在 第 一 次 迭代 当中 ， 所 有 数据 都 等 权重 。 但 是 在 后 续 的 
闪 代 当中 ， 前 次 迭代 中 分 错 的 数据 的 权重 会 增 大 。 这 种 针对 错误 的 调 
节能 力 正 是 AdaBoost 的 长 处 。 


本 章 以 单 层 决 策 树 作为 弱 学 习 器 构建 了 AdaBoost 分 类 器 。 实 际 上 ， 
AdaBoost 芳 数 可 以 应 用 于 任意 分 类 器 ， 只 要 该 分 类 狼 能 够 处 理 加 权 数 
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非 均衡 分 类 问题 是 指 在 分 类 器 训练 时 正 例 数目 和 反例 数目 不 相等 _( 相 
差 很 大 ) 。 该 问题 在 错 分 正 例 和 反例 的 代价 不 同时 也 存在 。 本 章 不 仅 
考察 了 一 种 不 同 分 类 器 的 评价 方法 一 -ROC 曲线 ， 还 介绍 了 正确 率 和 
召回 率 这 两 种 在 类 别 重 要 性 不 同时 ， 度 量 分 类 器 性 能 的 指标 。 


本 章 介 绍 了 通过 过 抽样 和 穴 抽样 方法 来 调节 数据 集中 的 正 例 和 反例 数 
目 。 男 外 一 种 可 能 更 好 的 非 均 衡 问 题 的 处 理 方法 ， 就 古 在 训练 分 类 器 
时 将 错误 的 代价 考虑 在 内 。 


到 目前 为 上 ， 我 们 介绍 了 一 系列 强大 的 分 类 技术 。 本 章 是 分 类 部 分 的 
最 后 一 章 ， 接 下 来 我 们 将 进入 另 一 类 监督 学 习 算法 一 一 回归 方法 ， 这 
也 将 完善 我 们 对 监督 方法 的 学 习 。 回 归 很 像 分 类 ， 但 是 和 分 类 输出 标 
称 型 类 别 值 不 同 的 是 ， 回 归 方 法 会 预测 出 一 个 连续 值 。 


第 二 部 分 “利用 回归 预测 数值 型 数据 


本 书 的 第 二 部 分 由 第 8 章 和 第 9 章 组 成 ， 主 要 介绍 了 回归 方法 。 回 归 是 
第 1-7 章 的 监督 学 习 方法 的 延续 。 前 面 说 过 ， 监 督学 习 指 的 是 有 目标 变 
量 或 预测 目标 的 机 右 学 习 方 法 。 回 归 与 分 类 的 不 同 ， 束 在 于 其 目标 变 
量 是 连续 数值 型 。 


第 8 章 介绍 了 线性 回归 、 局 部 加 权 线 性 回归 和 收缩 方法 。 第 9 章 则 借用 
了 第 3 章 树 构建 的 一 些 思想 并 将 其 应 用 于 回归 中 ， 从 而 得 到 了 树 回 归 。 


第 8 章 ”预测 数值 型 数据 : 回归 


本 章 内 容 


。 线性 回归 
。 局 部 加 权 线 性 回归 

岭 回归 和 逐步 线性 回归 
。 预测 鲍鱼 年 龄 和 玩具 售 价 


本 书 前 面 的 章 世 介绍 了 分 类 ， 分 类 的 目标 变量 是 标 称 型 数据 ， 而 本 章 
将 会 对 连续 型 的 数据 做 出 预测 。 读 者 很 可 能 有 这 样 的 疑问 : “回归 能 
来 做 些 什么 呢 ? ”。 我 的 观点 是 ， 回 归 可 以 做 任何 事情 。 然 而 大 多 效 公 
司 第 第 使 用 回归 法 做 一 些 比 较 沉 癌 的 事情 ， 例 如 销售 量 预 测 或 者 制造 
人 


本 章 首 先 介 绍 线性 回归 ， 包 括 其 名 称 的 由 来 和 Python 实现 。 在 这 之 后 引 
入 了 局 部 平滑 技术 ， 分 析 如 何 更 好 地 拟 合 数据 。 接 下 来 ， 本 章 将 探讨 
回归 在 “ 穴 拟 合 "情况 下 的 缩减 (shrinkage) 技术 ， 探 讨 偏差 和 方差 的 概 
念 。 最 后 ， 我 们 将 融合 所 有 技术 ， 预 测 鲍鱼 的 年 龄 和 玩具 的 售 价 。 此 
外 为 了 获取 一 些 玩具 的 数据 ， 我 们 还 将 使 用 Python 来 做 一 些 采 集 的 工 
作 。 这 一 章 的 内 容 会 十 分 丰富 。 


8.1. 用 线性 回归 找到 最 佳 拟 合 直 线 

线性 回归 

(LE. 结果 易于 理解 ， 计 算 上 不 复杂 。 

缺点 ， 对 非 线性 的 数据 拟 合 不 好 。 

适用 数据 类 型 ， 数 值 型 和 标 称 型 数据 。 

回归 的 目的 是 预测 数值 型 的 目标 值 。 最 直接 的 办 法 是 依据 输入 写 出 一 


个 目标 值 的 计算 公式 。 假 如 你 想 要 预测 姐姐 男友 汽车 的 功率 大 小 ， 可 
能 会 这 么 计算 : 


HorsePower = 0.0015*annualSalary - 0.99*hoursListeningToPublicRadio 


这 就 是 所 谓 的 回归 方程 (regression equation) ， 其 中 的 0.0015 和 -0.99 
称 作 回归 系数 (regression weights) ， 求 这 些 回归 系数 的 过 程 就 是 回 
归 。 一 旦 有 了 这 些 回归 系数 ， 表 给 定 输入 ， 做 预测 就 非常 容易 了 。 具 
体 的 做 法 是 用 回归 系数 乘 以 输入 值 ， 再 将 结果 全 部 加 在 一 起 ， 就 得 到 
了 预测 值 :。 


1. 此 处 的 回归 系数 是 一 个 向 量 ， 输 入 也 是 向 量 ， 这 些 运算 也 就 是 求 出 二 者 的 内 积 。 一 一 译 者 注 


说 到 回归 ， 一 般 都 是 指 线性 回归 (linear regression) ， 所 以 本 章 里 的 
回归 和 线性 回归 代表 同一 个 意思 。 线 性 回归 意味 着 可 以 将 输入 项 分 别 
乘 以 一 些 常 量 ， 再 将 结果 加 起 来 得 到 输出 。 需 要 说 明 的 是 ， 存 在 男 一 
种 称 为 非 线性 回归 的 回归 模型 ， 该 模型 不 认同 上 面 的 做 法 ， 比 如 认为 
输出 可 能 是 输入 的 乘积 。 这 样 ， 上 面 的 功率 计算 公式 也 可 以 写 做 : 


HorsePower = 0.0015*annualSalary/hoursListeningToPublicRadio 


wie — SAP PE AA BI, 但 本 章 对 此 不 做 深入 讨论 。 
回归 的 一 般 方法 


1. 收集 数据 : 采用 任意 方法 收集 数据 。 

zumo quse cius 
. 分 析 数 据 : 绘 出 数据 的 可 视 化 二 维 图 将 有 助 于 对 数据 做 出 理解 和 
分 析 ， 在 采用 缩减 法 求 得 新 回归 系数 之 后 ， 可 以 将 新 拟 合 线 绘 在 
图 上 作为 对 比 。 

训练 算法 : 找到 回归 系数 。 

.测试 算法 : 使 用 R ?或 者 预测 值 和 数据 的 拟 合 度 ， 来 分 析 模 型 的 效 


FR 

. 使 用 算法 : 使 用 回归 ， 可 以 在 给 定 输入 的 时 候 预 测 出 一 个 数值 ， 
这 是 对 分 类 方法 的 提升 ， 因 为 这 样 可 以 预测 连续 型 数据 而 不 仅仅 
SIEGE 


N 


UJ 


n p 


[op 


“回归 ”一 词 的 来 历 


今天 我 们 所 知道 的 回归 是 由 达尔 文 (Charles Darwin) 的 表 兄 弟 
Francis Galton 发 明 的 。Galton 于 1877 年 完成 了 第 一 次 回归 预测 ， 目 
的 是 根据 上 一 代 更 豆 种 子 (双亲 ) 的 尺寸 来 预测 下 一 代 纹 豆 种 子 

GZT) 的 尺寸 。Galton 在 大 量 对 象 上 应 用 了 回归 分 析 ， 甚 至 包括 
人 的 身高 。 他 注意 到 ， 如 果 双 亲 的 高 度 比 平均 高 度 高 ， 他 们 的 子 
女 也 倾向 于 比 平均 高 度 高 ， 但 尚 不 及 双亲 。 孩 子 的 高 度 问 着 平均 
高 度 回 退 (回归 ) 。Galton 在 多 项 研究 上 都 注意 到 这 个 现象 ， 所 以 
尽管 这 个 英文 单词 跟 数值 预测 没有 任何 关系 ， 但 这 种 研究 方法 仍 
被 称 作 回归 :。 


2. Ian Ayres, Super Crunchers (Bantam Books, 2008), 24. 


应 当 怎 样 从 一 大 堆 数据 里 求 出 回归 方程 呢 ? 假定 输入 数据 存放 在 矩阵 
x 中 ， 而 回归 系数 存放 在 向 量 w 中 。 那 么 对 于 给 定 的 数据 X1， 预 测 结 
果 将 会 通过 =“* 到 给 出 。 现 在 的 问题 是 ， 手 里 有 一 些 x 和 对 应 的 y , 
怎样 才能 找到 w 呢 ? 一 个 常用 的 方法 就 是 找 出 使 误差 最 小 的 w。 这 里 的 
误差 是 指 预测 y 值 和 真实 y 值 之 间 的 差 值 ， 使 用 该 误差 的 简单 累加 将 使 
得 正 差 值 和 负 差 值 相互 抵消 ， 所 以 我 们 采用 平方 误差 。 


平方 误 关 可 以 写 做 : 


nm 


> (=; wy 
i=l 


T 
ARTA LS M A y 。 如 果 对 w RE, gX YX) 
ECC m 


Ww-(X'Xx)x!'y 


w 上 方 的 小 标记 表示 ， 这 是 当前 可 以 估计 出 的 w 的 最 优 解 。 从 现 有 数据 
上 估计 出 的 w 可 能 并 不 是 数据 中 的 真实 w 值 ， 所 以 这 里 使 用 了 一 
NIPIS RERE NEw 的 一 个 最 住 估计 。 


值得 注意 的 是 ， 上 述 公 式 中 包含 (x 7X ) : ， 也 就 是 需要 对 和 矩阵 求 逆 ， 
因此 这 个 方程 只 在 堵 矩 阵 存 在 的 时 候 适 用 。 然 而 ， 抢 阵 的 堵 可 能 并 不 
存在 ， 因 此 必须 要 在 代码 中 对 此 作出 判断 。 


Et) sie Ew 求解 是 统计 学 中 的 常见 问题 ， 除 了 和 矩阵 方法 外 还 有 很 多 其 
他 方法 可 以 解决 。 通 过 调用 NumPy 库 里 的 矩阵 方法 ， 我 们 可 以 仅 使 用 
几 行 代码 就 完成 所 需 功 能 。 该 方法 也 称 作 OLS， 意 思 是 “普通 最 小 二 乘 
法 ” (ordinary least squares) 。 


PHA ARSC, WASTER, TERNAS ER CC 
据 的 最 佳 拟 合 直线 。 


图 8-1 ”从 ex0.txt 得 到 的 样 例 数据 


程序 清单 8-1 可 以 完成 上 述 功能 。 打 开 文 本 编辑 器 并 创建 一 个 新 的 文件 
regression.py ， 添 加 其 中 的 代码 。 


程序 清单 8-1 标准 回归 函数 和 数据 导入 画 数 


from numpy import * 


def loadDataSet(fileName): 


numFeat len(open(fileName).readline().split('Nt')) - 1 


dataMat 


[]; labelMat - [] 


fr - open(fileName) 


for line in fr.readlines(): 


lineArr -[] 


curLine = line.strip().split('\t') 


for i in range(numFeat): 


lineArr.append(float(curLine[i])) 


dataMat.append(lineArr) 


labelMat.append(float(curLine[-1])) 


return dataMat, labelMat 


def standRegres(xArr,yArr): 


xMat = mat(xArr); yMat = mat(yArr).T 


XTx = xMat.T*xMat 


if linalg.det(XTx) -- 0.0: 


print "This matrix is singular, cannot do inverse" 


return 


ws = XTx.I * (xMat.T*yMat) 


return ws 


第 一 个 函数 loadpataset () 与 第 7 章 的 同名 函数 是 一 样 的。 该 函数 打开 
一 个 用 tab 键 分 隔 的 文本 文件 ， 这 里 仍然 默认 文件 每 行 的 最 后 一 个 值 是 
目标 值 。 第 二 个 函数 standRegres() 用 来 计算 最 佳 拟 合 直线 。 该 男 数 首 
Z5 BEA x 和 y 并 将 它们 保存 到 和 矩阵 中 ， 然 后 计算 x rx ， 然 后 判断 它 的 行 
列 式 是 否 为 稚 ， 如 果 行 列 式 为 零 ， 那 么 计算 逆 和 矩阵 的 时 候 将 出 现 错 
误 。NumPy 提 供 一 个 线性 代数 的 库 linalg， 其 中 包含 很 多 有 用 的 函数 。 
可 以 直接 调用 1inalg.det() 来 计算 行列 式 。 最 后 ， 如 末 行 列 式 非 零 ， 
计算 并 返回 w。 如 果 没 有 检查 行列 式 是 否 为 零 束 试图 计算 矩阵 的 逆 ， 将 
会 出 现 错误 。NumpPy 的 线性 代数 库 还 提供 一 个 函数 来 解 未 知 矩 阵 ， 如 
果 使 用 该 函数 ， 那 么 代码 ws=xTx .I * (xMat.T*yMat) 应 写成 
ws=linalg.solve(xTx, xMat.T*yMatT) ? 


下 面 看 看 实际 效果 ， 使 用 loadpataset() 将 从 数据 中 得 到 两 个 数组 ， 分 
ee 


>>> import regression 
>>> from numpy import * 


>>> xArr, yArr=regression.loadDataSet('ex0.txt') 


首先 看 前 两 条 数据 ; 
>>> xArr[0:2] 


[[1.0, 0.067732000000000001], [1.0, 0.42781000000000002]] 


第 一 个 值 总 是 等 于 1.0， 即 xe e feli BUE Te EE ISAAC OBL 
值 x1 ， 也 束 是 我 们 图 中 的 横 坐 标 值 。 


现在 看 一 下 standRegres() 函数 的 执行 效果 : 


>>> Ws = regression.standRegres(xArr, yArr) 


>>> WS 


matrix([[ 3.00774324], 


[ 1.69532264]]) 


变量 ws 存放 的 就 是 回归 系数 。 在 用 内 积 来 预测 y 的 时 候 ， 第 一 维 将 乘 
以 前 面 的 常数 xo ， 第 二 维 将 乘 以 输入 变量 x1 。 因 为 前 面 假定 了 xe=1 , 
所 以 最 终 会 得 到 y=ws[6]+ws[1]*X1。 这 里 的 y 实际 是 预测 出 的 ， 为 了 和 
真实 的 y 值 区 分 开 来 ， 我 们 将 它 记 为 yHat 。 下 面 使 用 新 的 ws 值 计算 


yHat : 


>>> xMat-mat(xArr) 
>>> yMatzmat(yArr) 


>>> yHat = xMat*ws 


现在 就 可 以 绘 出 数据 集散 点 图 和 最 佳 拟 合 直 线 图 : 
>>> import matplotlib.pyplot as plt 
»»» fig - plt.figure() 
»»» ax - fig.add subplot(111) 
>>> ax.scatter(xMat[:,1].flatten().A[0], yMat.T[:,0].flatten().A[9]) 


«matplotlib.collections.CircleCollection object at OxO4ED9D30» 


上 述 命 令 创建 了 图 像 并 绘 出 了 原始 的 数据 。 为 了 绘制 计算 出 的 最 佳 拟 
合 直线 ， 需 要 绘 出 yhat 的 值 。 如 有 果 直 线 上 的 数据 点 次 序 混 乱 ， 绘 图 时 
将 会 出 现 问 题 ， 所 以 首先 要 将 点 按照 升序 排列 : 


>>> xCopy-xMat.copy() 

>>> xCopy.sort(0) 

>>> yHat=xCopy*ws 

>>> ax.plot(xCopy[:,1], yHat) 
[<matplotlib.lines.Line2D object at 0x0343F570>] 


>>> plt.show() 


我 们 将 会 看 到 类 似 于 图 8-2 的 效果 图 。 
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图 8-2 ”ex0.txt 的 数据 集 与 它 的 最 佳 拟 合 直线 


几乎 任 一 数据 集 都 可 以 用 上 述 方 法 建立 模型 ， 那 么 ， 如 何 判断 这 些 模 
型 的 好 坏 呢 ?比较 一 下 图 8-3 的 两 个 子 图 ， 如 来 在 两 个 数据 集 上 分 别 作 
线性 回归 ， 将 得 到 完全 一 样 的 模型 ( 拟 合 直线 ) 。 显 然 两 个 数据 是 不 
一 样 的 ， 那 么 模型 分 别 在 二 着 上 的 效 采 如 何 ? 我 们 当 如 何 比较 这 些 效 
果 的 好 坏 呢 ? 有 种 方法 可 以 计算 预测 值 yhat 序列 和 真实 值 y 序列 的 匹 
配 程度 ， 那 就 是 计算 这 两 个 序列 的 相关 系数 。 
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0002 0.0 0.2 0.4 0.6 0.8 1.0 12 
图 8-3 ”具有 相同 回归 系数 (0302.0) 的 两 组 数据 。 上 图 的 相关 系数 是 
0.58， 而 下 图 的 相关 系数 是 0.99 

在 Python 中 ，NumPy 库 提供 了 相关 系数 的 计算 方法 : 可 以 通过 命令 
corrcoef(yEstimate, yActual) 来 计算 预测 值 和 真实 值 的 相关 性 。 下 面 
我 们 束 在 前 面 的 数据 集 上 做 个 实验 。 
与 之 前 一 样 ， 首 先 计 算出 y 的 预测 值 yMat : 


>>> yHat = xMat*ws 


E eM (这 时 需要 将 yMat RE, DAPRUEPA SH) EC 67 [Al 
HER): 


>>> corrcoef(yHat.T, yMat) 
array([[ 1. , 0.98647356], 


[ 0.98647356, 1. ]]) 


该 矩阵 包含 所 有 两 两 组 合 的 相关 系数 。 可 以 看 到 ， 对 角 线 上 的 数据 是 
1.0， 因 为 yMat 和 自己 的 匹配 是 最 完美 的 ， 而 YHat 和 yMat 的 相关 系数 为 
0.98 ° 


最 佳 拟 合 直线 方法 将 数据 视 为 直线 进行 建 模 ， 具 有 十 分 不 错 的 表现 。 
但 十 图 8-2 的 数据 当中 似乎 还 存在 其 他 的 潜在 模式 。 那 么 如 何 才能 利用 
RESET 我 们 可 以 根据 数据 来 局 部 调整 预测 ， 下 面 就 会 介绍 这 种 


方法 


8.2 ”局 部 加 权 线 性 回归 


线性 回归 的 一 个 问题 是 有 可 能 出 现 欠 拟 合 现象 ， 因 为 它 求 的 是 具有 最 
小 均 方 误差 的 无 侦 佑 计 。 显 而 易 见 ， 如 果 模 型 从 拟 合 将 不 能 取得 最 好 
的 预测 效果 。 所 以 有 些 方 法 允许 在 信 计 中 引入 一 些 偏 兽 ， 从 而 降低 预 
测 的 均 方 误差 。 


其 中 的 一 个 方法 是 局 部 加 权 线 性 回归 (Locally Weighted Linear 
Regression， 为 LWLR) “。 在 该 算法 中 ， 我 们 给 待 预测 点 附近 的 每 个 点 
赋予 一 定 的 权重 ， 然 后 与 8.1 节 类 似 ， 在 这 个 子 集 上 基于 最 小 均 方 差 来 
进行 普通 的 回归 。 与 kKNN 一 样 ， 这 种 算法 每 次 预测 均 需 要 事先 选取 出 
对 应 的 数据 子 集 。 该 算法 解 出 回归 系数 w 的 形式 如 下 : 


w= (XWX) X'Wy 


其 中 w 是 一 个 矩阵 ， 用 来 给 每 个 数据 点 赋予 权重 。 


LWLR 使 用 “ 核 ”( 与 文 持 向 量 机 中 的 核 类 似 ) 来 对 附近 的 点 赋予 更 高 的 
， n 类 型 可 以 目 由 选择 ， 最 常用 的 核 就 是 高 斯 核 ， 高 斯 核对 应 
S H b: 


| 


1. 读者 要 注意 区 分 这 里 的 权重 W 和 回归 系数 w， 与 kNN 一 样 ， 该 加 权 模 型 认为 样本 点 距离 越 近 ， 越 可 能 符合 同一 个 线性 模型 。 一 一 译 者 注 


这 样 就 构建 了 一 个 只 含 对 角 元 素 的 权重 矩阵 w ， 并 且 点 x 与 x o k 

iE, wii) 将 会 越 大 。 上 述 公式 包含 一 个 需要 用 户 指定 的 参数 k ， 它 决 
定 了 对 附近 的 点 赋予 多 大 的 权重 ， 这 也 是 使 用 LWLR 时 唯一 需要 考虑 的 
参数 ， 在 图 8-4 中 可 以 看 到 参数 与 权重 的 关系 。 
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图 8-4 ”每 个 点 的 权重 图 (假定 我 们 正 预 测 的 点 是 x = 6.5 ) ， 最 上 面 
的 图 是 原始 数据 集 ， 第 二 个 图 显示 了 当 k = 0.5 时 ， 大 部 分 的 数据 都 
用 于 训练 回归 模型 ， 而 最 下 面 的 图 显示 当 k = 0.01 时 ， 仅 有 很 少 的 局 
部 点 被 用 于 训练 回归 模型 


下 面 看 看 模型 的 效果 ， 打 开 文 本 编辑 器 ， 将 程序 清单 8-2 的 代码 深 加 到 


文件 regression.py 中 。 
程序 清单 8-2 HE TE E VERS 


def lwlr(testPoint, xArr, yArr,k=1.0): 
xMat = mat(xArr); yMat = mat(yArr).T 
m = shape(xMat) [0] 


weights = mat(eye((m))) 


#0 ”创建 对 角 和 矩阵 


for j in range(m): 


#@ 权重 值 大 小 以 指数 级 衰减 


diffMat = testPoint - xMat[j,:] 


weights[j,j] = exp(diffMat*diffMat.T/(-2.0*k**2)) 


XTx = xMat.T * (weights * xMat) 


if linalg.det(xTx) == 0.0: 


print "This matrix is singular, cannot do inverse" 


return 


ws = xTx.I * (xMat.T * (weights * yMat 
g y 


def lwlrTest(testArr, xArr, yArr, k=1.0): 

m = shape(testArr) [0] 

yHat = zeros(m) 

for i in range(m): 

yHat[i] = lwir(testArr[i], xArr, yArr,k) 

return yHat 
程序 清单 8-2 中 代码 的 作用 是 ， 给 定 x 空间 中 的 任意 一 点 ， 计 算出 对 应 
的 预测 值 yhat 。 函 数 Iwlr() 的 开头 与 程序 清单 8-1 类 似 ， 读 入 数据 并 创 
建 所 需 矩 阵 ， 之 后 创建 对 角 权 重 和 矩阵 weights @。 权 重 和 矩阵 是 一 个 方 
阵 ， 阶 数 等 于 样本 点 个 数 。 也 就 是 说 ， 该 矩阵 为 每 个 样本 点 初始 化 了 
一 个 权重 。 接 着 ， 算 法 将 遍历 数据 集 ， 计 算 每 个 样本 点 对 应 的 权重 
值 ; 随 着 样本 点 与 竺 预测 点 距离 的 递增 ， 权 重 将 以 指数 级 衰减 @。 输 
入 参数 k 控制 袁 减 的 速度 。 与 之 前 的 函数 standRegress() 一 样 ， 在 权重 
和 矩阵 计算 完毕 后 ， 就 可 以 得 到 对 回归 系数 ws 的 一 个 估计 。 


程序 清 蛙 8-2 中 的 男 一 个 函数 是 lwlrTest() ， 用 于 为 数据 集中 每 个 点 调 
用 lwlr() ， 这 有 助 于 求解 k 的 大 小 。 


下 面 看 看 实际 效果 ， 将 程序 清单 8-2 的 代码 加 入 到 regression.py 中 并 保 
存 ， 然 后 在 Python 提 示 符 下 输入 如 下 命令 : 


>>> reload(regression) 


«module 'regression' from 'regression.py'» 


如 采 需 要 重新 载 入 数据 集 ， 则 输入 : 


>>> XArr,yArr-regression.loadDataSet('exO.txt') 


可 以 对 单 点 进行 估计 : 
>>> yArr[0] 
3.1765129999999999 
>>> regression.lwlr(xArr[0],xArr,yArr,1.0) 
matrix([[ 3.12204471]]) 
>>> regression.lwlr(xArr[0],xArr,yArr,0.001) 


matrix([[ 3.20175729]]) 


为 了 得 到 数据 集 里 所 有 点 的 估计 ， 可 以 调用 lwlrTest( ) RAL: 


>>> yHat = regression.lwlrTest(xArr, xArr, yArr,0.003) 


下 面 绘 出 这 些 估计 值 和 原始 值 ， 看 看 yHat AFLG OR ^ MHR ÉTER 
数 需 要 将 数据 点 按 序 排列 ， 首 先 对 xArr BEY: 


xMatzmat(xArr) 
>>> srtInd = xMat[:,1].argsort(0) 


>>> xSort-xMat[srtInd][:,9,:] 


然后 用 Matplotlib 绘 图 : 
>>> fig = plt.figure() 


>>> ax = fig.add subplot(111) 


>>> ax.plot(xSort[:,1],yHat[srtInd]) 


[<matplotlib.lines.Line2D object at 0x03639550>] 


>>> ax.scatter(xMat[:,1].flatten().A[0], mat(yArr).T.flatten().A[0] , s=2,c='red 
') 


«matplotlib.collections.PathCollection object at 0x03859110> 


>>> plt.show() 


可 以 观察 到 如 图 8-5 所 示 的 效果 。 图 8-5 给 出 了 k 在 三 种 不 同 取 值 下 的 结 
ALA] Sk = 1.0 时 权重 很 大 ， 如 同 将 所 有 的 数据 视 为 等 权重 ， 得 出 的 
最 佳 拟 合 直线 与 标准 的 回归 一 致 。 使 用 k = 0.02 得 到 了 非常 好 的 效 
果 ， 抓 住 了 数据 的 潜在 模式 。 下 图 使 用 k = 0.003 纳入 了 太 多 的 噪声 
点 ， 拟 合 的 直线 与 数据 点 过 于 贴近 。 所 以 ， 图 8-5 中 的 最 下 图 站 过 拟 合 
的 一 个 例子 ， 而 最 上 图 则 是 欠 拟 合 的 一 个 例子 。 下 一 节 将 对 过 拟 合 和 
欠 拟 合 进行 量化 分 析 。 


340 0.2 0.4 0.6 0.8 1.0 


399 0.2 0.4 0.6 0.8 1.0 


图 8-5 ”使 用 3 种 不 同 的 平滑 值 绘 出 的 局 部 加 权 线 性 回归 结果 。 上 图 中 的 
平滑 参数 k = 1.6 ， 中 图 k = 6.01 ,下 图 k = 0.003 °: UEA], k 
= 1.0 时 的 模型 效果 与 最 小 二 乘法 差不多 ，k = 0.01 时 该 模型 可 以 控 
出 数据 的 潜在 规律 ， 而 k = 0.003 时 则 考虑 了 太 多 的 噪音 ， 进 而 导致 

了 过 拟 合 现象 


局 部 加 权 线 性 回归 也 存在 一 个 问题 ， 即 增加 了 计算 量 ， 因 为 它 对 每 个 
扩 做 预测 时 都 必须 使 用 整个 数据 集 。 从 图 8-5 可 以 看 出 ，*k *= 0.01 时 可 
以 得 到 很 好 的 估计 ， 但 是 同时 看 一 下 图 8-4 中 k= -0.01 的 情况 ， 束 会 发 
现 大 多 数据 点 的 权重 都 接近 零 。 如 采 避 人 免 这 些 计 算 将 可 以 减少 程序 运 
行 时 间 ， 从 而 缓解 因 计 算 量 增加 市 来 的 问题 。 


到 此 为 止 ， 我们 已 经 介绍 了 找 出 最 佳 拟 合 直线 的 两 种 方法 ， 下 面 用 这 
些 技术 来 预测 鲍鱼 的 年 龄 。 


8.3 ANB: 预测 鲍鱼 的 年 龄 


接 下 来 ， 我 们 将 回归 用 于 真实 数据 。 在 data 目 孙 下 有 一 份 来 目 UCI 数 据 
集合 的 数据 ， 记 录 了 鲍鱼 〈 一 种 介壳 类 水 生动 物 ) 的 年 龄 。 鲍 鱼 年 龄 
n] DRESS SERO ES S 。 
在 regression.py 中 加 入 下 列 代码 : 


def rssError(yArr,yHatArr): 


return ((yArr-yHatArr)**2).sum() 


>>> abX,abY=regression.loadDataSet('abalone.txt') 
>>> yHat01=regression.1lwlrTest(abx[0:99],abX[0:99],abY[0:99],0.1) 
>>> yHati-regression.lwlrTest(abX[0:99],abX[0:99], abY[0:99], 1) 


>>> yHati0-regression.lwlrTest(abX[0:99],abX[0:99],abY[0:99], 10) 


为 了 分 析 预 测 误差 的 大 小 ， 可 以 用 函数 rssError() 计算 出 这 一 指标 : 
>>> regression. rssError(abY[0:99], yHat01.T) 
56.842594430533545 
>>> regression.rssError(abY[0:99], yHati.T) 


4 


N 


9.89056187006685 
>>> regression.rssError(abY[0:99], yHat10.T) 


549.11817088257692 


可 以 看 到 ， 使 用 较 小 的 核 将 得 到 较 低 的 误差 。 那 么 ， 为 什么 不 在 所 有 
数据 集 上 都 使 用 最 小 的 核 呢 ?这 是 因为 使 用 最 小 的 核 将 造成 过 拟 合 ， 


AY TIE ^ — XE HEX S Tec AT Ro NARA BE VESTIBUS 
上 的 表现 : 


>>> 


>>> 


yHatO1-regression.lwlrTest(abX[100:199],abX[0:99], abY[0:99],0.1) 


regression.rssError(abY[100:199], yHat01.T) 


25619.926899338669 


>>> 


573. 


yHati-regression.lwlrTest(abX[100:199],abX[0:99], abY[0:99],1) 


regression.rssError(abY[100:199], yHat1.T) 


5261441895808 


yHatiO-regression.lwlrTest(abX[100:199],abX[0:99], abY[0:99], 10) 


regression.rssError(abY[100:199], yHat10.T) 


.57119053830979 


从 上 述 结 采 可 以 看 到 ， 在 上 面 的 三 个 参数 中 ， 核 大 小 等 于 10 时 的 测试 
误差 最 小 ， 但 它 在 训练 集 上 的 误差 却 是 最 大 的 。 接 下 来 再 来 和 简单 的 
线性 回归 做 个 比较 : 


>>> 


>>> 


>>> 


518. 


ws = regression.standRegres(abX[0:99],abY[0:99]) 


yHat=mat (abX[100:199] )*ws 


regression.rssError(abY[100:199], yHat.T.A) 


63631532450131 


简单 线性 回归 达到 了 与 局 部 加 权 线 性 回归 类 似 的 效果 。 这 也 表明 一 
点 ， 必 须 在 未 知 数据 上 比较 效 末 才能 选取 到 最 佳 模型 。 那 么 最 佳 鸭 核 


大 小 是 10 吗 ? 或 许 是 ， 但 如 果 想 得 到 更 好 的 效果 ， 应 该 用 10 个 不 同 的 
样本 集 做 10 次 测试 来 比较 结果 。 


本 例 展 示 了 如 何 使 用 局 部 加 权 线 性 回归 来 构建 模型 ， 可 以 得 到 比 普通 
线性 回归 更 好 的 效果 。 局 部 加 权 线 性 回归 的 问题 在 于 ， 每 次 必须 在 整 
个 数据 集 上 运行 。 也 束 是 说 为 了 做 出 预测 ， 必 须 保 存 所 有 的 训练 数 

据 。 下 面 将 介绍 另 一 种 提高 预测 精度 的 方法 ， 并 分 析 它 的 优势 所 在 。 


8.4 ”缩减 系数 来 “理解 ”数据 


如 果 数 据 的 特征 比 样本 点 还 多 应 该 怎么 办 ? 是 否 还 可 以 使 用 线性 回归 
和 之 前 的 方法 来 做 预测 ? 答案 是 否定 的 ， 即 不 能 再 使 用 前 面 介 绍 的 方 
法 。 这 是 因为 在 计算 ( x rx ) -: 的 时 候 会 出 错 。 


如 果 特 征 比 样本 点 还 多 (n > m) ， 也 就 是 说 输入 数据 的 矩阵 x 不 是 
满 秩 答 阵 。 非 满 秩 吞 阵 在 求 逆 时 会 出 现 问 题 。 


为 了 解决 这 个 问题 ， 统 计 学 家 引入 了 岭 回归 (ridge regression) 的 概 
念 ， 这 就 是 本 节 将 介绍 的 第 一 种 缩减 方法 。 接 着 是 lasso 法 ， 该 方法 效 
条 很 好 但 计算 复杂 。 本 万 最 后 介绍 了 第 二 种 缩减 方法 ， 称 为 前 同和 逐步 
回归 ， 可 以 得 到 与 ljasso 差 不 多 的 效果 ， 且 更 容易 实现 。 


8.4.1 IAA 


简单 说 来 ， 岭 回归 就 是 在 矩阵 x tx 上 加 一 个 人 I 从 而 使 得 矩阵 非 奇 
异 ， 进 而 能 对 xx + Xr 求 阮 。 其 中 和 窍 阵 是 一 个 mxm ARARE, XT 
角 线 上 元 素 全 为 1， 其 他 元 素 全 为 0。 而 》 是 一 个 用 户 定义 的 数值 ， 后 面 
会 做 介绍 。 在 这 种 情况 下 ， 回 归 系 数 的 计算 公式 将 变 成 : 


w»-(X'X4AD'x!y 


令 回 归 最 先 用 来 处 理 特征 数 多 于 样本 数 的 情况 ， 现 在 也 用 于 在 估计 中 
加 入 偏差 ， 从 而 得 到 更 好 的 估计 。 这 里 通过 引入 、 来 限制 了 所 有 w 之 和 
， 通 过 引入 该 惩 天 项 ， 能 够 减少 不 重要 的 参数 ， 这 个 技术 在 统计 学 中 
也 叫做 缩减 (shrinkage) 。 


岭 回归 中 的 岭 是 什么 ? 


令 回归 使 用 了 单位 矩阵 乘 以 常量 ， 我 们 观察 其 中 的 单位 矩阵 1 
， 可 以 看 到 值 1 贯穿 整个 对 角 线 ， 其 余 元 素 全 是 0。 形 象 地 ， 在 0 构 
成 的 平面 上 有 一 条 1 组 成 的 “ 岭 *»， 这 整 是 岭 回 归 中 的 “ 岭 * 的 由 来 。 


缩减 方法 可 以 去 挥 不 重要 的 参数 ， 因 此 能 更 好 地 理解 数据 。 此 外 ， 与 
简单 的 线性 回归 相 比 ， 缩 减法 能 取得 更 好 的 预测 效果 。 


与 前 儿 间 里 训练 其 他 参数 所 用 的 方法 类 似 ， 这 里 通过 预测 误差 最 小 化 
得 到 、 : 数据 获取 之 后 ， 首 移 抽 一 部 分 数据 用 于 测试 ， 剩 余 的 作为 训练 
集 用 于 训练 参数 w。 训 练 完 毕 后 在 测试 集 上 测试 预测 性 能 。 通 过 选取 不 
同 的 来 重复 上 述 测 试 过 程 ， 最 终 得 到 一 个 使 预测 误差 最 小 的 。 


LL PEU. 打开 regression.py 文件 并 添加 程序 清单 8-3 的 代 


程序 清单 8-3 ”上 岭 回归 


def ridgeRegres(xMat, yMat, lam=0.2): 


XTx = xMat.T*xMat 


denom = xTx + eye(shape(xMat)[1])*1am 


if linalg.det(denom) -- 0.0: 


print "This matrix is singular, cannot do inverse" 


return 


ws = denom.I * (xMat.T*yMat) 


return ws 


def ridgeTest(xArr,yArr): 


xMat = mat(xArr); yMat=mat(yArr).T 


yMean = mean(yMat, ©) 


#@ ”数据 标准 化 


yMat = yMat - yMean 


xMeans = mean(xMat, 0) 


xVar - var(xMat, 0) 


xMat - (xMat - xMeans)/xVar 


numTestPts - 30 


wMat = zeros((numTestPts, shape(xMat)[1])) 


for i in range(numTestPts): 


ws = ridgeRegres(xMat, yMat, exp(i-10) ) 


wMat[i, : ]=ws.T 


return wMat 


程序 清单 8-3 中 的 代码 包含 了 两 个 函数 : ER ridgeRegres() 用 于 计算 回 
WAAR, 而 函数 ridgeTest() 用 于 在 一 组 、 上 测试 结果 ? 


第 一 个 函数 ridgeRegres() 实现 了 给 定 lambda 下 的 岭 回 归 求 解 。 如 果 没 
指定 lambda， 则 默认 为 0.2。 由 于 lambda 是 Python 保 留 的 关键 字 ， 因 此 
程序 中 使 用 了 1am 来 代替 。 该 本 数 首先 构建 矩阵 x rx ， 然 后 用 lanm 3E 
以 单位 矩阵 〈 可 调用 NumPy 库 中 的 方法 eye() 来 生成 ) 。 在 普通 回归 方 
法 可 能 会 产生 错误 时 ， 岭 回归 仍 可 以 正常 工作 。 那 么 是 不 是 就 不 再 需 
要 检查 行列 式 是 否 为 零 ， 对 吗 ? 不 完全 对 ， 如 果 lambda 设 定 为 0 的 时 候 
一 样 可 能 会 产生 错误 ， 所 以 这 里 仍 需要 做 一 个 检查 。 最 后 ， 如 果 和 矩阵 
韭 奇异 束 计 算 回 归 系 数 并 返回 。 


为 了 使 用 岭 回 归 和 缩减 技术 ， 首 先 需 要 对 特征 做 标准 化 处 理 。 回 忆 一 
下 ， 第 2 章 已 经 用 过 标准 化 处 理 技术 ， 使 每 维特 征 具 有 相同 的 重要 性 

(不 考虑 特征 代表 什么 ) 。 程 序 清 单 8-3 中 的 第 二 个 函数 ridgeTest() 就 
A a a 
FRATO - 


处 理 完 成 后 惑 可 以 在 30 个 不 同 的 lambda 下 调用 ridgeRegres() ERAN 9 YE 
意 ， 这 里 的 lambda 应 以 指数 级 变化 ， 这 样 可 以 看 出 lambda 在 取 非 常 小 
的 值 时 和 取 非 常 大 的 值 时 分 别 对 结果 造成 的 影响 。 最 后 将 所 有 的 回归 
系数 输出 到 一 个 矩阵 并 返回 。 


下 面 看 一 下 鲍鱼 数据 集 上 的 运行 结 采 。 


>>> reload(regression) 
>>> abX,abY=regression.loadDataSet('abalone.txt') 


>>> ridgeWeights=regression.ridgeTest(abX,abY) 


这 样 束 得 到 了 30 个 不 同 lambda 所 对 应 的 回归 系数 。 为 了 看 到 缩减 的 效 
果 ， 在 Python 提 示 和 从 下 输入 如 下 代码 : 


>>> import matplotlib.pyplot as plt 
>>> fig = plt.figure() 

>>> ax = fig.add subplot(111) 

>>> ax.plot(ridgeWeights) 


>>> plt.show() 


运行 之 后 应 该 看 到 一 个 类 似 图 8-6 的 结果 图 ， 该 图 绘 出 了 回归 系数 与 

log(A) 的 关系 。 在 最 左边 ， 即 和 最 小 时 ， 可 以 得 到 所 有 系数 的 原始 值 
(与 线性 回归 一 致 ) ; 而 在 右边 ， 系 数 全 部 缩减 成 0， 在 中 间 部 分 的 某 
值 将 可 以 取得 最 好 的 预测 效果 。 为 了 定量 地 找到 最 佳 参数 值 ， 还 需要 


WEFT AC MAE ^ AIh, RAMES ON ZR TUUS RUH ROI], TE 
图 8-6 中 观察 它们 对 应 的 系数 大 小 束 可 以 。 


2.5 


2.0 


5 
log(lambda) 


图 8-6 ” 岭 回归 的 回归 系数 变化 图 。 和 非常 小 时 ， 系 数 与 普通 回归 一 
样 。 而 和 非常 大 时 ， 所 有 回归 系数 缩减 为 0。 可 以 在 中 间 某 处 找到 使 得 
预测 的 结果 最 好 的 》 值 


还 有 一 些 其 他 缩减 方法 ， 如 lasso、LAR、PCA 回 归 :以 及 子 集 选 择 等 。 
写 岭 回归 一 样 ， 这 些 方法 不 仅 可 以 提高 预测 精确 率 ， 而 且 可 以 解释 回 
归 系 数 。 下 面 将 对 lasso 方 法 稍 作 介绍 。 

1. Trevor Hastie, Robert Tibshirani, and Jerome Friedman, The Elements of Statistical Learning: Data Mining, Infer- ence, and Prediction, 2nd ed. (Springer, 2009). 


8.4.2 lasso 


不 难 证 明 ， 在 增加 如 下 约束 时 ， 普 通 的 最 小 二 乘法 回归 会 得 到 与 岭 回 
归 的 一 样 的 公式 : 


上 式 限 定 了 所 有 回归 系数 的 平方 和 不 能 大 于 和 。 使 用 普通 的 最 小 二 乘法 
回归 在 当 两 个 或 更 多 的 特征 相关 时 ， 可 能 会 得 出 一 个 很 大 的 正 系数 和 
一 个 很 大 的 负 系 数 。 正 是 因为 上 述 限制 条 件 的 存在 ， 使 用 岭 回 归 可 以 
避免 这 个 问题 。 


与 岭 回 归 类 似 ， 另 一 个 缩减 方法 lasso 也 对 回归 系数 做 了 限定 ， 对 应 的 
约束 条 件 如 下 : 


n 


PALM SÀ 


k= 


唯一 的 不 同 点 在 于 ， 这 个 约束 条 件 使 用 绝对 值 取代 了 平方 和 。 虽 然 约 
束 形式 只 是 稍 作 变化 ， 结 果 却 大 相 径 庭 : 在 和 足够 小 的 时 候 ， 一 些 系数 
会 因此 被 迫 缩减 到 0， 这 个 特性 可 以 帮助 我 们 更 好 地 理解 数据 。 这 两 个 
约束 条 件 在 公式 上 看 起 来 相差 无 几 ， 但 细微 的 变化 却 极 大 地 增加 了 计 
算 复杂 度 (为 了 在 这 个 新 的 约束 条 件 下 解 出 回归 系数 ， 需 要 使 用 二 次 
规划 算法 ) 。 下 面 将 介绍 一 个 更 为 简单 的 方法 来 得 到 结果 ， 该 方法 叫 
{BURN RIA AE LIA e 

8.4.3 ”前 向 逐步 回归 

前 向 逐步 回归 算法 可 以 得 到 与 lasso 差 不 多 的 效果 ， 但 更 加 简单 。 它 属 
于 一 种 贪心 算法 ， 即 每 一 步 都 尽 可 能 减少 误差 。 一 开始 ， 所 有 的 权重 
人 


该 算法 的 伪 代 码 如 下 所 示 : 


数据 标准 化 ， 使 其 分 布 满足 9 均值 和 单位 方差 


ERIE NET: 


设置 当前 最 小 误差 1owestError 为 正 无 穷 


对 每 个 特征 : 


增 大 或 缩小 : 


改变 一 个 系数 得 到 一 个 新 的 W 


计算 新 w 下 的 误差 


过 r- 


如 果 误 差 Error 小 于 当前 最 小 误差 lowestError: 设置 Wbest 等 ] 


lE 
= 
IIR 
cT 
三 


将 W 设 置 为 新 的 Wbest 


X BOURSE 打开 regression.py 文件 并 加 入 下 列 程序 清单 中 的 


程序 清单 8-4 ”前 向 逐步 线性 回归 
def stageWise(xArr,yArr,eps=0.01,numIt=100): 

xMat = mat(xArr); yMat=mat(yArr).T 
yMean = mean(yMat, ©) 
yMat - yMat - yMean 
xMat - regularize(xMat) 
m, n=shape(xMat ) 
returnMat = zeros((numIt,n)) 
ws = zeros((n,1)); wsTest = ws.copy(); wsMax = ws.copy() 
for i in range(numIt): 


print ws.T 


lowestError - inf; 
for j in range(n): 
for sign in [-1,1]: 
wsTest - ws.copy() 
wsTest[j] *- eps*sign 
yTest - xMat*wsTest 
rssE - rssError(yMat.A, yTest.A) 
if rssE « lowestError: 
lowestError - rssE 
wsMax - wsTest 
ws = wsMax.copy() 
returnMat[i,:]-ws.T 


return returnMat 


程序 清单 8-4 中 的 函数 stagewise() 是 一 个 逐步 线性 回归 算法 的 实现 ， 它 
与 lasso 做 法 相近 但 计算 人 商 单 。 该 函数 的 输入 包括 : 输入 数据 xArr 和 预 
测 变量 yArr 。 此 外 还 有 两 个 参数 : 一 个 是 eps ， 表 示 每 次 迭代 需要 调整 
的 步 长 ， 男 一 个 是 numIt ， 表 示 和 迭代 次 数 。 


画 数 首先 将 输入 数据 转换 并 存 入 矩阵 中 ， 然 后 把 特征 按照 均值 为 方差 

为 1 进行 标准 化 处 理 。 在 这 之 后 创建 了 一 个 向 量 ws 来 保存 w 的 值 ， 并 且 

为 了 实现 贪心 算法 建立 了 ws 的 两 份 副本 。 接 下 来 的 优化 过 程 需要 迭代 

mrt, PELE UCU ARETE Hiu 向 量 ， 用 于 分 析 算 法 所 和 的 这 
TET 


贪心 算法 在 所 有 特征 上 运行 两 次 for 循环 ， 分 别 计算 增加 或 减少 该 特征 
对 误差 的 影响 。 这 里 使 用 的 是 平方 误差 ， 通 过 之 前 的 函数 rssError() 
得 到 。 该 误差 初始 值 设 为 正 无 穷 ， 经 过 与 所 有 的 误差 比较 后 取 最 小 的 
误差 。 整 个 过 程 循环 欠 代 进行 。 


下 面 看 一 下 实际 效果 ， 在 regression.py 里 输入 程序 清单 8-4 的 代码 并 保 
存 ， 然 后 在 Python 提 示人 符 下 输入 如 下 命令 : 


>>> reload(regression) 


«module 'regression' from 'regression.pyc'» 


>>> XArr,yArr-regression.loadDataSet('abalone.txt') 


>>> regression.stageWise(xArr,yArr,0.01,200) 


[[ 9 0 0 9.01 © 0 0 o. 1] 
[[ 9 0 0 0.02 © 0 0 o. 1] 
[[ 0.04 ©. 0.09 0.03 0.31 -0.64 0. 0.36]] 
[[ 0.05 0. 0.09 0.03 0.31 -0.64 ©. 9.36]] 
[[ 0.04 ©. 0.09 0.03 0.31 -0.64 0. 0.36]] 


上 述 结 果 中 值得 注意 的 是 wa 和 we 都 是 0， 这 表明 它们 不 对 目标 值 造 成 
任何 影响 ， 也 就 是 说 这 些 特征 很 可 能 是 不 需要 的 。 另 外 ， 在 参数 eps 设 
置 为 0.01 的 情况 下 ， 一 段 时 间 后 系数 就 已 经 饱和 并 在 特定 值 之 间 来 回 震 
水 ， 这 是 因为 步 长 太 大 的 缘故 。 这 里 会 看 到 ， 第 一 个 权重 在 0.04 和 0.05 
ZAREE% ° 


下 面试 厦 用 更 小 的 步 长 和 更 多 的 步 数 : 
>>> regression.stageWise(xArr, yArr,0.001,5000) 
[[0. 60. 0. 60. 0. 0. ©. 6.4] 
[[ 0. 0. 0. 0.001 ©. e. 9. 0. 1] 


[[ 0. 9. 0. 0.002 9. 9. 9. 9. 1] 


[[ 0.044 -0.011 0.12 0.022 2.023 -0.963 -0.105 0.187]] 

[[ 0.043 -0.011 0.12 0.022 2.023 -0.963 -0.105 0.187]] 

[[ 0.044 -0.011 0.12 0.022 2.023 -0.963 -0.105 0.187]] 
接 下 来 把 这 些 结 采 与 最 小 二 乘法 进行 比较 ， 后 着 的 结 末 可 以 通过 如 下 
代码 获得 : 

>>> xMat=mat (xArr) 

>>> yMat=mat(yArr).T 

>>> xMat-regression.regularize(xMat) 

>>> yM = mean(yMat, 0) 

>>> yMat = yMat - yM 

>>> weights=regression.standRegres(xMat, yMat.T) 


>>> weights.T 


matrix([[ 0.0430442 , -0.02274163, 0.13214087, 0.02075182, 2.22403814, 


-0.99895312, -0.11725427, 0.16622915]]) 
可 以 看 到 在 5000 次 选 代 以 后 ， 逐 步 线性 回归 算法 与 常规 的 最 小 二 乘法 


效果 类 似 。 使 用 0.005 的 epsilon 值 并 经 过 1000 次 迭代 后 的 结果 参见 图 8- 
7 o 


"ee 200 400 600 800 1000 
图 8-7 鲍鱼 数据 集 上 执行 逐步 线性 回归 法 得 到 的 系数 与 迭代 次 数 间 的 
关系 。 逐 步 线性 回归 得 到 了 与 lasso 相 似 的 结果 ， 但 计算 起 来 更 加 简便 


逐步 线性 回归 算法 的 实际 好 处 并 不 在 于 能 绘 出 图 8-7 这 样 课 亮 的 图 ， 主 
要 的 优点 在 于 它 可 以 帮助 人 们 理解 现 有 的 模型 并 做 出 改进 。 当 构建 了 


一 个 模型 后 ， 可 以 运行 该 算法 找 出 重要 的 特征 ， 这 样 就 有 可 能 及 时 停 
止 对 那些 不 重要 特征 的 收集 。 骤 后 ， 如 果 用 于 测试 ， 该 算法 每 100 次 适 
代 后 就 可 以 构建 出 一 个 模型 ， 可 以 使 用 类 似 于 10 折 交叉 验证 的 方法 比 
较 这 些 模型 ， 最 终 选 择 使 误差 最 小 的 模型 。 


当 应 用 缩减 方法 (如 逐步 线性 回归 或 岭 回 归 ) 时 ， 模 型 也 就 增加 了 偏 
差 (bias) ， 与 此 同时 却 减 小 了 模型 的 方差 。 下 一 下 将 揭示 这 些 概念 之 
间 的 关系 并 分 析 它 们 对 结 采 的 影响 。 


8.5 ”权衡 偏差 与 方差 


任何 时 候 ， 一 旦 发 现 模 型 和 测量 值 之 间 存 在 差异 ， 就 说 出 现 了 误差 。 
当 考 虑 模型 中 的 “噪声 ”或 者 说 误差 和 时， 必须 考虑 其 的 来 源 。 你 可 能 会 
对 复杂 的 过 程 进行 简化 ， 这 将 导致 在 模型 和 测量 值 之 间 出 现 * 噪 声 ? 或 
误差， 寿 无 法 理解 数据 的 真实 生成 过 程 ， 也 会 导致 差异 的 发 生 。 另 
外 ， 测 量 过 程 本 吴 也 可 能 产生 “噪声 ?或 者 问题 。 下 面 举 一 个 例子 ，8.1 
节 和 8.2 太 处 理 过 一 个 从 文件 导入 的 二 维 数 据 。 实 话 来 讲 ， 这 个 数据 是 
我 目 己 造 出 来 的 ， 其 具体 的 生成 公式 如 下 : 


= 3.0 + 1.7x + 0.1sin(30x)+0.06N(0,1), 


EHN(0,1) 是 一 个 均值 为 0、 方 差 为 1 的 正 态 分 布 。 在 8.1 节 中 ， 我 们 党 
试 过 仅 用 一 条 直线 来 拟 合 上 述 数据 。 不 难 想到 ， 和 直线 所 能 得 到 的 最 佳 
拟 合 应 该 是 3.9+1.7x 这 一 部 分 。 这 样 的 话 ， 误 差 部 分 就 是 
0.1sin(30x)40.06N(0,1) 。 在 8.2 节 和 8.3 节 ， 我 们 使 用 了 局 部 加 权 线 性 
回归 来 试图 捕捉 数据 背后 的 结构 。 该 结构 拟 合 起 来 有 一 定 的 难度 ， 
此 我 们 测试 了 多 组 不 同 的 局 部 权重 来 找到 具有 最 小 测试 误差 的 解 。 


图 8-8 给 出 了 训练 误差 和 测试 误差 的 曲线 图 ， 上 面 的 曲线 就 是 测试 误 
差 ， 下 面 的 曲线 是 训练 误差 。 根 据 8.3 节 的 实验 我 们 知道 ， 如果 降低 核 
的 大 小 ， 那 么 训练 误差 将 变 小 。 从 图 8-8 来 看 ， 从 左 到 右 就 表示 了 核 逐 
浙 减 小 的 过 程 。 


低 方差 高 偏差 高 方差 低 偏差 


模型 复杂 度 


图 8-8 ”偏差 方差 折 中 与 测试 误差 及 训练 误差 的 关系 。 上 面 的 曲线 就 是 
测试 误差 ， 在 中 间 部 分 最 低 。 为 了 做 出 最 好 的 预测 ， 我 们 应 该 调整 模 
型 复杂 度 来 达到 测试 误差 的 最 小 值 


一 般 认 为 ， 上 述 两 种 误差 由 三 个 部 分 组 成 : 偏差、 测量 误差 和 随机 品 
声 。 在 8.2 广 和 8.3 广 ， 我 们 通过 引入 了 越 来 越 小 的 核 来 不 断 增 大 模型 的 


Zo 


8.4 世 介绍 了 缩减 法 ， 可 以 将 一 些 系 数 缩减 成 很 小 的 值 或 直接 缩减 为 0， 
这 是 一 个 增 大 模型 偏差 的 例子 。 通 过 把 一 些 特征 的 回归 系数 缩减 到 0， 
同时 也 就 减少 了 模型 的 复杂 度 。 例 子 中 有 8 个 特征 ， 消 除 其 中 两 个 后 不 
仅 使 模型 更 易 理 解 ， 同 时 还 降低 了 预测 误差 。 图 8-8 的 左 侧 是 参数 缩减 
IPPAR, MAMER ° 


方差 是 可 以 度量 的 。 如 果 从 鲍鱼 数据 中 取 一 个 随机 样本 集 (例如 取 其 
中 100 个 数据 ) 并 用 线性 模型 拟 合 ， 将 会 得 到 一 组 回归 系数 。 同 理 ， 再 
取出 另 一 组 随机 样本 集 并 拟 合 ， 将 会 得 到 另 一 组 回归 系数 。 这 些 系 数 
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念 在 机 右 学 习 十 分 流行 并 且 反 复出 现 。 


1. 方差 指 的 是 模型 之 间 的 差异 ， 而 偏差 指 的 是 模型 预测 值 和 数据 之 间 的 差异 ， 请 读者 注意 区 分 。 一 一 译 者 注 


下 一 节 将 介绍 上 壕 理论 的 应 用 ， 首先 从 拍卖 站 点 抽取 一 些 数据 ， 再 使 
用 一 些 回 归 法 进行 实验 来 为 数据 找到 最 佳 的 岭 回 归 模 型 。 这 样 束 可 以 
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8.6 ANB: 预测 乐高 玩具 套装 的 价格 


你 对 乐高 (LEGO) 品牌 的 玩具 了 解 吗 ? 乐高 公司 生产 拼装 类 玩具 ， 由 
很 多 大 小 不 同 的 塑料 揪 块 组 成 。 这 些 塑料 插 块 的 设计 非常 出 色 ， 不 需 
要 任何 烙 合 剂 就 可 以 随意 拼装 起 来 。 除 了 简单 玩具 之 外 ， 乐 高 玩具 在 
一 些 成 人 中 也 很 流行 。 一 般 来 说 ， 这 些 插 块 都 成 套 出 售 ， 它 们 可 以 拼 
装 成 很 多 不 同 的 东西 ， 如 船 、 城 堡 、 一 些 著 名 建筑 ， 等 等 。 乐 高 公司 
每 个 套装 包含 的 部 件数 日 从 10 件 到 5000 件 不 等 。 


一 种 乐高 套装 基本 上 在 几 年 后 束 会 停产 ， 但 乐高 的 收藏 者 之 间 仍 会 在 
停产 后 彼此 交易 。Dangler 喜 欢 为 乐高 套装 估价 ， 下 面 将 用 本 章 的 回归 
技术 帮助 他 建立 一 个 预测 模型 。 


示例 : 用 回归 法 预测 乐高 套装 的 价格 


1. 收集 数据 : 用 Google Shopping 的 APII 收 集 数据 。 

2. 准备 数据 : 从 返回 的 JSON 数 据 中 抽取 价格 。 

3. 分 析 数 据 : 可 视 化 并 观察 数据 。 

4. err 构建 不 同 的 模型 ， 采 用 逐步 线性 回归 和 直接 的 线性 回 
归 模型 。 

5. A 使 用 交叉 验证 来 测试 不 同 的 模型 ， 分 析 哪 个 效果 最 


j 
6. 使 用 算法 ， 这 次 练习 的 目标 就 是 生成 数据 模型 。 


在 这 个 例子 中 ， 我 们 将 从 不 同 的 数据 集 上 获取 价格 ， 然 后 对 这 些 数据 
建立 回归 模型 。 需 要 做 的 第 一 件 事 整 古 如 何 获 取 数 据 。 


8.6.1 ”收集 数据 : 使 用 Google 购 物 的 API 


Google 已 经 为 我 们 提供 了 一 套 购物 的 API 来 抓 取 价格 。 在 使 用 API 之 
前 ， 需 要 注册 一 个 Google 账 号 ， 然 后 访问 Google API 的 控制 台 来 确保 购 
物 API 可 用 。 完 成 之 后 束 可 以 发 送 HTTP 请 求 ，API 将 以 JSON 格 式 返 回 
所 需 的 产品 信息 。Python 提 供 了 JSON 解 析 模 块 ， 我 们 可 以 从 返回 的 
JSON 格 式 里 整理 出 所 需 数 据 。 详 细 的 API 介 绍 可 以 参见 : 
http://code.google.com/apis/shopping/search/v1/getting started.html ° 


打开 regression.py 文 件 并 加 入 如 下 代码 。 
程序 清单 8-5 ”购物 信息 的 获取 画 数 


from time import sleep 


import json 


import urllib2 


def searchForSet(retX, retY, setNum, yr, numPce, origPrc): 


sleep(10) 


myAPIstr = 'get from code.google.com' 


searchURL - 'https://www.googleapis.com/shopping/search/v1/public/products? 
key=%s&country=US&q=lego+%d&alt=json' 96 (myAPIstr, setNum) 


pg = urllib2.urlopen(searchURL) 


retDict - json.loads(pg.read()) 


for i in range(len(retDict['items'])): 


try: 


currItem - retDict['items'][i] 


if currItem['product']['condition'] -- 'new': 


newFlag - 1 


else: newFlag = 0 


listOfInv = curriItem['product']['inventories'] 


for item in listOfInv: 


sellingPrice - item['price'] 


if sellingPrice > origPrc * 0.5: 


#@ ”过 滤 掉 不 完整 的 套装 


print "%d\t%d\t%d\t%F\t%F" 96 (yr, numPce,newFlag,origPrc, sel 


lingPrice) 


retX.append([yr, numPce, newFlag, origPrc]) 


retY.append(sellingPrice) 


except: print 'problem with item %d' % i 


def setDataCollect(retX, retY): 


searchForSet(retX, retY, 8288, 2006, 800, 49.99) 


searchForSet(retX, retY, 10030, 2002, 3096, 269.99) 


searchForSet(retX, retY, 10179, 2007, 5195, 499.99) 


searchForSet(retX, retY, 10181, 2007, 3428, 199.99) 


searchForSet(retX, retY, 10189, 2008, 5922, 299.99) 


searchForSet(retX, retY, 10196, 2009, 3263, 249.99) 


上 上述 程序 清单 中 的 第 一 个 函数 是 searchForset() ， 它 调用 Google 购 物 
API 并 保证 数据 抽取 的 正确 性 。 这 里 需要 导入 新 的 模块 ，time ,sleep() 
~ json 和 urllibz。 但 是 一 开始 要 休眠 10 秒 钟 ， 这 是 为 了 防止 短 时 间 内 
有 过 多 的 API 调 用 。 接 下 来 ， 我 们 拼接 查询 的 URL 字 符 串 ， 添 加 API 的 
key 和 待 查询 的 套 效 信息 ， 打 开 和 人 解析 操作 通过 json.1oads() 方法 实 
Gt Ere TEA eee eles 


部 分 返回 结果 的 是 一 个 产品 的 数组 ， 我 们 将 在 这 些 产品 上 循环 迭代 ， 
判断 该 产品 是 否 是 新 产品 并 抽取 它 的 价格 。 我 们 知道 ， 乐 高 套装 由 很 
多 小 插件 组 成 ， 有 的 二 手套 狠 很 可 能 会 缺失 其 中 一 两 件 。 也 束 是 说 ， 
卖家 只 出 售 套 装 的 若干 部 件 (ASEH) 。 因 为 这 种 不 完整 的 套装 也 会 
通过 检索 结果 返回 ， 所 以 我 们 需要 将 这 些 信息 过 滤 掉 〈 可 以 统计 描述 
中 的 关键 词 或 者 是 用 贝 叶 斯 方法 来 判断 ) 。 我 在 这 里 仅 使 用 了 一 个 简 
单 的 局 发 式 方法 : 如 采 一 个 父 和 的 价格 比 原 始 价格 低 一 半 以 上 ， 则 认 
为 该 套装 不 完整 。 程 序 清单 8-5 在 代码 @ 人 处 过 滤 掉 了 这 些 人 套装 ， 解 析 成 
功 后 的 套装 将 在 屏幕 上 显示 出 来 并 保存 在 list 对 象 retx rety 中 。 


程序 清单 8-5 的 最 后 一 个 函数 是 setDatacollect() ， 它 负责 多 次 调用 
searchForSet() ? 函数 searchForSet( ) 的 其 他 参数 是 从 
www.brickset.com 收 集 来 的 ， 它 们 也 一 并 输出 到 文件 中 。 


下 面 看 一 下 执行 结果 ， 添 加 程序 清单 8-5 中 的 代码 之 后 保存 
regression.py ， 在 Python 提 示 符 下 输入 如 下 命令 : 


>>> lgX = []; leY = [] 


>>> regression.setDataCollect(lgX, lgY) 


2006 800 1 49.990000 549.990000 


2006 800 1 49.990000 759.050000 


2006 800 1 49.990000 316.990000 


2002 3096 1 269.990000 499.990000 


2002 3096 1 269.990000 289.990000 


仿 查 一 下 lgx 和 1gY 以 确认 一 下 它们 非 空 。 下 节 我 们 将 使 用 这 些 数据 来 
构建 回归 方程 并 预测 乐高 玩具 套装 的 售 价 。 

8.6.2 ”训练 算法 : 建立 模型 

上 一 节 从 网 上 收集 到 了 一 些 真 实 的 数据 ， 下 面 将 为 这 些 数据 构建 一 个 
模型 。 构 建 出 的 模型 可 以 对 售 价 做 出 预测 ， 并 帮助 我 们 理解 现 有 数 

据 。 看 一 下 Python 是 如 何 完成 这 些 工 作 的 。 

(X0-1) ， 为 此 创建 一 个 全 1 的 和 矩 
BE: 


>>> shape(lgX) 
(58, 4) 


>>> lgX1=mat(ones((58,5))) 


授 下 来 ， 将 原 数据 矩阵 1gx & fil PSAE E1gxi 的 第 1 到 第 5 列 : 


>>> 1gX1[:,1:5]=mat(1gX) 


确认 一 下 数据 复制 的 正确 性 : 
>>> lgX[9] 
[2006.0, 800.0, 0.0, 49.990000000000002] 
>>> lgxi[0] 
matrix([[ 1.00000000e+00, 2.00600000e+03, 8.00000000e+02, 


©.00000000e+00, 4.99900000e+01]]) 


很 显然 ， 后 者 除了 在 第 0 列 加 入 1 之 外 其 他 数据 都 一 样 。 最 后 在 这 个 新 
数据 集 上 进行 回归 处 理 : 


>>> ws-regression.standRegres(lgX1,lgY) 
>>> WS 
matrix([[ 5.53199701e+04], 

[ -2.75928219e+01], 

[ -2.68392234e-02], 

[ -1.12208481e+01], 


[ 2.57604055e400]]) 


CH hak, BARA eG AR. 


>>> lgXi[0]*ws 


matrix([[ 76.07418853] ] ) 


>>> lgXi[-1]*ws 


matrix([[ 431.17797672]]) 

>>> lgX1[43]*ws 

matrix([[ 516.20733105]]) 
可 以 看 到 模型 有 效 。 下 面 看 看 具体 的 模型 。 该 模型 认为 父 疼 的 售 价 应 
该 采用 如 下 公式 计算 : 

$55319.97-27.59*Year-0.00268*NumPieces-11.22*NewOrUsed+2.57*original price 
这 个 模型 的 预测 效果 非常 好 ， 但 模型 本 号 并 不 能 令 人 满意 。 它 对 于 数 
据 拟 合 得 很 好 ， 但 看 上 去 没有 什么 道理 。 从 公式 看 ， 套 装 里 零 部 件 越 
多 售 价 反 而 会 越 低 。 另 外 ， 该 公式 对 痢 套 竣 也 有 一 定 的 惩 列 。 
下 面 使 用 缩减 法 中 一 种 ， 即 岭 回归 再 进行 一 次 实验 。 前 面 讨论 过 如 何 
对 系数 进行 缩减 ， 但 这 次 将 会 看 到 如 何 用 缩减 法 确定 最 佳 回 归 系 数 。 
打开 regression.py 并 输入 下 面 的 代码 。 
程序 清单 8-6 ”交叉 验证 测试 岭 回归 


def crossValidation(xArr,yArr,numVal-10): 


m = len(yArr) 


indexList - range(m) 


errorMat - zeros((numVal,30)) 


for i in range(numVal): 


#@ (以 下 两 行 ) 创建 训练 集 和 测试 集 容器 


trainX-[]; trainY=[] 


testX = []; testy = [] 


random.shuffle(indexList) 


for j in range(m): 


if j < m*0.9: 


#0 (以 下 五 行 ) 数据 分 为 训练 集 和 测试 集 


trainX.append(xArr[indexList[j]]) 


trainY.append(yArr[indexList[j]]) 


else: 


testX.append(xArr[indexList[j]]) 


testY.append(yArr[indexList[j]]) 


wMat = ridgeTest(trainX,trainY) 


for k in range(30): 


46 (以 下 三 行 ) 用 训练 时 的 参数 将 测试 数据 标准 化 


matTestX = mat(testX); matTrainX-mat(trainX) 


meanTrain = mean(matTrainx, 0) 


varTrain = var(matTrainx, 0) 


matTestX - (matTestX-meanTrain)/varTrain 


yEst = matTestX * mat(wMat[k,:]).T + mean(trainY) 


errorMat[i,k]=rssError(yEst.T.A,array(testyY) ) 


meanErrors = mean(errorMat,0) 


minMean = float(min(meanErrors)) 


bestweights = wMat[nonzero(meanErrors==minMean) ] 


xMat = mat(xArr); yMat=mat(yArr).T 


meanX = mean(xMat,0); varX = var(xMat, 0) 


#0 (以 下 三 行 ) 数据 还 原 
unReg = bestWeights/varX 
print "the best model from Ridge Regression is:\n",unReg 


print "with constant term: ",-1*sum(multiply(meanX,unReg)) + mean(yMat) 


上 述 程 序 清单 中 的 函数 crossvalidation( ) 有 三 个 参数 ， 前 两 个 参数 1gx 
和 1gY 存 有 数据 集中 的 X 和 Y 值 的 list 对 象 ， 默 认 1gx 和 1gY 具有 相同 的 长 
度 。 第 三 个 参数 numval 是 算法 中 交叉 验证 的 次 数 ， 如 果 该 值 没 有 指 

定 ， 束 取 默 认 值 10。 函 数 crossvalidation() 首先 计算 数据 点 的 个 数 m 

e 创建 好 了 训练 集 和 测试 集 容器 @， 之 后 创建 了 一 个 list 并 使 用 Numpy 
提供 的 random.shuffle() 函数 对 其 中 的 元 素 进 行 混 洗 (shuffle) ， 因 此 
可 以 实现 训练 集 或 测试 集 数据 点 的 随机 选取 。@ 处 将 数据 集 的 90% 分 割 
成 训练 集 ， 其 余 10% 为 测试 集 ， 并 将 二 者 分 别 放 入 对 应 容 絮 中 。 


一 旦 对 数据 点 进行 混 洗 之 后 ， 就 建立 一 个 新 的 矩阵 wat 来 保存 岭 回 归 
中 的 所 有 回归 系数 。 我 们 还 记得 在 8.4.1 闻 中 ， 范 数 ridgeTest() 使 用 30 
个 不 同 的 值 创建 了 30 组 不 同 的 回归 系数 。 接 下 来 我 们 也 在 上 述 测 试 集 
上 用 30 组 回归 系数 来 循环 测试 回归 效果 。 上 岭 回 归 需 要 使 用 标准 化 后 的 
数据 ， 因 此 测试 数据 也 需要 用 与 测试 集 相同 的 参数 来 执行 标准 化 。 在 
四 处 用 函数 rssError() 计算 误差 ， 并 将 结果 保存 在 errorMat 中 。 


在 所 有 交叉 验证 完成 后 ，errorMat 保存 了 ridgeTest() 里 每 个 人 对 应 的 
多 个 误差 值 。 为 了 将 得 出 的 回归 系数 与 standRegres() 作对 比 ， 需 要 计 


算 这 些 误 差 估计 值 的 均值 :。 有 一 点 值得 注意 : 岭 回 归 使 用 了 数据 标准 
化 ， 而 standRegres() 则 没有 ， 因 此 为 了 将 上 述 比 较 可 视 化 还 需 将 数据 
还 原 。 在 @ 处 对 数据 做 了 还 原 并 将 最 终结 果 展 示 。 


1. 此 处 为 10 折 ， 所 以 每 个 应 该 对 应 10 个 误差 。 应 选取 使 误差 的 均值 最 低 的 回归 系数 。---- 译 者 注 


来 看 一 下 整体 的 运行 效果 ， 在 regression.py 中 输入 程序 清单 8-6 中 的 代 
码 并 保存 ， 然 后 执行 如 下 命令 : 


>>> regression.crossValidation(lgX,lgY,10) 
The best model from Ridge Regression is: 
[[ -2.96472902e+01 -1.34476433e-03 -3.38454756e+01 2.44420117e+00]] 


with constant term: 59389.2069537 


为 了 便于 与 前 规 的 最 小 二 乘法 进行 比较 ， 下 面 给 出 当前 的 价格 公式 : 


$59389.21-29.64*Year -0.00134*NumPieces -33.85*NewOrUsed+2.44*original price. 


可 以 看 到 ， 该 结果 与 最 小 二 乘法 没有 太 大 差异 。 我 们 本 期 望 找到 一 个 
更 易于 理解 的 模型 ， 显 然 没 有 达到 预期 效果 。 为 了 达到 这 一 点 ， 我 们 
来 看 一 下 在 缩减 过 程 中 回归 系数 是 如 何 变化 的 ， 输 入 下 面 的 命令 : 


>>> regression.ridgeTest(lgX,lgY) 


array([[ -1.45288906e+02, -8.39360442e+03, -3.28682450e400, 4.42362406e+04], 


[ -1.46649725e+02, -1.89952152e+03, -2.80638599e+00, 4.27891633e+04], 


[ -4.91045279e-06, 5.01149871e-08, 2.40728171e-05,8.14042912e-07]]) 


这 些 系数 是 经 过 不 同 程度 的 缩减 得 到 的 。 首 先 看 第 1 行 ， 第 4 项 比 第 2 项 
的 系数 大 5 倍 ， 比 第 1 项 大 57 倍 。 这 样 看 来 ， 如 果 只 能 选择 一 个 特征 来 
做 预测 的 话 ， 我 们 应 该 选择 第 4 个 特征 ， 也 束 是 原始 价格 。 如 有 果 可 以 选 
择 2 个 特征 的 话 ， 应 该 选择 第 4 个 和 第 2 个 特征 。 


这 种 分 析 方 法 使 得 我 们 可 以 挖掘 大 量 数 据 的 内 在 规律 。 在 仅 有 4 个 特征 
时 ， 该 方法 的 效果 也 许 并 不 明显 ; 但 如 果 有 100 个 以 上 的 特征 ， 该 方法 
人 


8.7 本章 小 结 


与 分 类 一 样 ， 回 归 也 是 预测 目标 值 的 过 程 。 回 归 与 分 类 的 不 同 点 在 
于 ， 前 者 预测 连续 型 变量 ,而 后 者 预测 离散 型 变量 。 回 归 有 古 统 计 学 中 最 
有 力 的 工具 之 一 。 在 回归 方程 里 ， 求 得 特征 对 应 的 最 佳 回 归 系 数 的 方 
法 是 最 小 化 误差 的 平方 和 。 给 定 输入 矩阵 x ， 如 果 x "x 的 逆 存 在 并 可 
以 求 得 的 话 ， 回 归 法 都 可 以 直接 使 用 。 数 据 集 上 计算 出 的 回归 方程 并 
不 一 定 意味 着 它 是 最 佳 的 ， 可 以 使 用 预测 值 yhat 和 原始 值 y 的 相关 性 
来 度量 回归 方程 的 好 坏 。 


当 数 据 的 样本 数 比特 征 数 还 少时 候 ， 算 阵 x x 的 逆 不 能 直接 计算 。 即 
便当 样本 数 比 特征 数 多 时 ， x ^x 的 逆 仍 有 可 能 无 法 直接 计算 ， 这 有 是 因 
为 特征 有 可 能 高 度 相 关 。 这 时 可 以 考虑 使 用 岭 回 归 ， 因 为 当 x ^x 的 逆 
不 能 计算 时 ， 它 仍 保证 能 求 得 回归 参数 。 


回归 是 缩减 法 的 一 种 ， 相 当 于 对 回归 系数 的 大 小 施加 了 限制 。 夯 一 
种 很 好 的 绚 减 法 是 lasso。Lasso 难 以 求解 ， 但 可 以 使 用 计算 位 便 的 逐步 
线性 回归 方法 来 求 得 近似 结 来 。 


缩减 法 还 可 以 看 做 是 对 一 个 模型 增加 仿 差 的 同时 减少 方差 。 偏 差 方 差 
折 中 是 一 个 重要 的 概念 ， 可 以 帮助 我 们 理解 现 有 模型 并 做 出 改进 ， 从 
而 得 到 更 好 的 模型 。 


本 章 介 绍 的 方法 很 有 用 。 但 有 些 时 候 数 据 间 的 关系 可 能 会 更 加 复杂 ， 
如 预测 值 与 特征 之 间 征 非 线性 关系 ， 这 种 情况 下 使 用 线性 的 模型 束 难 


以 拟 合 。 下 一 章 将 介绍 几 种 使 用 树 结构 来 预测 数据 的 方法 。 


Pom PBA 
本 章 内 容 


。CART 算 法 

。 回归 与 模型 树 

e PISTE 

。 了 Python 中 GUI 的 使 用 


第 8 章 介绍 的 线性 回归 包含 了 一 些 强大 的 方法 ， 但 这 些 方法 创建 的 模型 
需要 拟 合 所 有 的 样本 点 (局 部 加 权 线 性 回归 除外 ) 。 当 数据 拥有 众多 
特征 并 且 特 征 之 间 关 系 十 分 复杂 时 ， 构 建 全 局 模型 的 想法 就 显得 太 难 
了 ， 世 很 略 显 示 深 拙 。 而 且 ， 实 际 生活 中 很 多 问题 都 古 非 线性 的 ， 不 
可 能 使 用 全 局 线性 模型 来 拟 合 任何 数据 。 


一 种 可 行 的 方法 是 将 数据 集 切 分 成 很 多 份 易 建 模 的 数据 ， 然 后 利用 第 8 
章 的 线性 回归 技术 来 建 模 。 如 采 首 次 切 分 后 仍然 难以 拟 合 线性 模型 束 
继续 切 分 。 在 这 种 切 分 方式 下 ， 树 结构 和 回归 法 就 相当 有 用 。 


本 章 首 移 介绍 一 个 新 的 叫做 CART (Classification And Regression 

Trees， 分 类 回归 树 ) 的 树 构建 算法 。 该 算法 既 可 以 用 于 分 类 还 可 以 用 
于 回归 ， 因 此 非常 值得 学 习 。 然 后 利用 Python 来 构建 并 显示 CART 树 。 
代码 会 保持 足够 的 灵活 性 以 便 能 用 于 多 个 问题 当中 。 接 着 ， 利 用 CART 
算法 构建 回归 树 并 介绍 其 中 的 树 剪 校 技术 《该 技术 的 主要 目的 是 防止 
树 的 过 拟 合 ) 。 之 后 引入 了 一 个 更 高 级 的 模型 树 算 法 。 与 回归 树 的 做 
法 (在 每 个 叶 节 点 上 使 用 各 自 的 均值 做 预测 ) 不 同 ， 该 算法 需要 在 每 
个 叶 节点 上 都 构建 出 一 个 线性 模型 。 在 这 些 树 的 构建 算法 中 有 一 些 需 
要 调整 的 参数 ， 所 以 还 会 介绍 如 何 使 用 Python 中 的 Tkinter 模 块 建立 图 形 
交互 界面 。 最 后 ， 在 该 界面 的 辅助 下 分 析 参 数 对 回归 效果 的 影响 。 


9.1 复杂 数据 的 局 部 性 建 模 


树 回 归 

优点 : 可 以 对 复杂 和 非 线 性 的 数据 建 模 
缺点 : SRA DE 

适用 数据 类 型 : 数值 型 和 标 称 型 数据 


第 3 章 使 用 决策 树 来 进行 分 类 。 决 策 树 不 断 将 数据 切 分 成 小 数据 集 ， 直 
到 所 有 目标 变量 完全 相同 ， 或 者 数 据 不 能 再 切 分 为 止 。 决 集 树 古 一 种 
T ER A E 
司 最 优 。 


第 3 章 使 用 的 树 构 建 算法 是 ID3。ID3 的 做 法 是 每 次 选取 当前 最 佳 的 特征 
来 分 割 数据 ， 并 按照 该 特征 的 所 有 可 能 取 值 来 切 分 。 也 融 是 说 ， 如 采 
一 个 特征 有 4 种 取 值 ， 那 么 数据 将 被 切 成 4 份 。 一 旦 按 某 特征 切 分 后 ， 

该 特征 在 之 后 的 算法 执行 过 程 中 将 不 会 再 起 作用 ， 所 以 有 观点 认为 这 
种 切 分 方式 过 于 迅速 。 男 外 一 种 方法 是 二 元 切 分 法 ， 即 每 次 把 数据 集 
切 成 两 份 。 如 琳 数 据 的 某 特征 值 等 于 切 分 所 要 求 的 值 ， 那 么 这 些 数据 
束 进 入 树 的 左 子 树 ， 反 之 则 进入 树 的 右 子 树 。 


除了 切 分 过 于 迅速 外 ，ID3 算 法 还 存在 另 一 个 问题 ， 它 不 能 直接 处 理 连 
续 型 特征 。 只 有 事先 将 连续 型 特征 转换 成 离散 型 ， 才 能 在 ID3 算 法 中 使 
用 。 但 这 种 转换 过 程 会 破坏 连续 型 变量 的 内 在 性 质 。 而 使 用 二 元 切 分 
法 则 易于 对 树 构建 过 程 进行 调整 以 处 理 连 续 型 特征 。 具 体 的 处 理 方法 
是: 如 来 特征 值 大 于 给 定 值 就 走 左 子 树 ， 否 则 整 走 右 子 树 。 男 外 ， 二 
元 切 分 法 也 节省 了 树 的 构建 时 间 ， 但 这 点 意义 也 不 是 特别 大 ， 因 为 这 
些 树 构建 一 般 是 离线 完成 ， 时 间 并 非 需 要 重点 关注 的 因素 。 


CART 是 十 分 著名 且 广 泛 记 载 的 树 构建 算法 ， 它 使 用 二 元 切 分 来 处 理 连 
续 型 变量 。 对 CART 稍 作 修 改 就 可 以 处 理 回 归 问 题 。 第 3 章 中 使 用 香农 
炉 来 度量 集合 的 无 组 织 程度 。 如 果 选 用 其 他 方法 来 代 蕉 香农 焙 ， 就 可 
以 使 用 树 构 建 算法 来 完成 回归 。 


下 面 将 实现 CART 算 法 和 回归 树 。 回 归 树 与 分 类 树 的 思路 类 似 ， 但 叶 节 
点 的 数据 类 型 不 是 离散 型 ， 而 是 连续 型 。 


树 回 归 的 一 般 方法 


1. 收集 数据 : 采用 任意 方法 收集 数据 。 
2. 准备 数据 : 需要 数值 型 的 数据 ， 标 称 型 数据 应 该 映射 成 二 值 型 数 


据 。 

3 分 析 数 据 ， 绘 出 数据 的 二 维 可 视 化 显示 结果 ， 以 字典 方式 生成 
对 o 

4. 训练 算法 ， 大 部 分 时 间 都 花费 在 叶 节点 树 模型 的 构建 上 。 

5. 测试 算法 ， 使 用 测试 数据 上 的 R2 值 来 分 析 模型 的 效果 。 

6. 使 用 算法 : 使 用 训练 出 的 树 做 预测 ， 预 测 结果 还 可 以 用 来 做 很 多 


事情 


有 了 思路 之 后 就 可 以 开始 写 代 码 了 。 下 一 节 将 介绍 在 Python 中 利用 
CART 算 法 构建 树 的 最 佳 方法 。 


9.2 ”连续 和 离散 型 特征 的 树 的 构建 


在 树 的 构建 过 程 中 ， 需 要 解决 多 种 类 型 数据 的 存储 问题 。 与 第 3 章 类 
人 
元 素 。 


。 行 切 分 的 特征 。 

。 行 切 分 的 特征 值 。 

。 右 子 树 。 当 不 再 需要 切 分 的 时 候 ， 也 可 以 是 单个 值 。 
。 左 于 树 。 与 右 于 树 类 似 。 


这 与 第 3 章 的 树 结 构 有 一 点 不 同 。 第 3 章 用 一 部 字典 来 存储 每 个 切 分 ， 
但 该 字典 可 以 包含 两 个 或 两 个 以 上 的 值 。 而 CART 算 法 只 做 二 元 切 分 ， 
所 以 这 里 可 以 固定 树 的 数据 结构 。 树 包含 左 键 和 右键 ， 可 以 存储 另 一 
标 子 树 或 者 单个 值 。 子 典 还 包含 特征 和 特征 值 这 两 个 键 ， 它 们 给 出 切 
分 算法 所 有 的 特征 和 特征 值 。 当 然 ， 读 者 可 以 用 面向 对 象 的 编程 模式 
来 建立 这 个 数据 结构 。 例 如 ， 可 以 用 下 面 的 Python 代码 来 建立 树 万 点 : 


class treeNode(): 


def _ init (self, feat, val, right, left): 


featureToSplitOn - feat 


valueOfSplit - val 


rightBranch - right 


leftBranch - left 


当 使 用 C++ 这 样 不 太 灵 活 的 编程 语言 时 ， 你 可 能 要 用 面 问 对 象 编程 模式 
来 实现 树 结构 。Python 具 有 足够 的 灵活 性 ， 可 以 直接 使 用 字典 来 存储 树 
结构 而 无 须 男 外 目 定义 一 个 类 ， 从 而 有 效 地 减少 代码 量 。Python 不 是 一 
种 强 类 型 编程 语言 ， 因 此 接 下 来 会 看 下， 树 的 每 个 分 校 还 可 以 再 包含 
其 他 树 、 数 值 型 数据 甚至 古 癌 量 。 


本 章 将 构建 两 种 树 : 第 一 种 是 9.4 节 的 回归 树 (regression tree) ， 其 每 


A 


个 叶 节 点 包含 单个 值 ， 第 二 种 是 9.5 节 的 模型 树 (model tree) ， 其 每 个 
叶 节 点 包含 一 个 线性 方程 。 创 建 这 两 种 树 时 ， 我 们 将 尽量 使 得 代码 之 
间 可 以 重用 。 下 面 完 给 出 两 种 树 构 建 算法 中 的 一 些 共用 代码 。 


函数 createTree() 的 伪 代 码 大 致 如 下 : 


找到 最 佳 的 待 切 分 特征 : 


如 果 该 节点 不 


区 再 分 ， 将 该 节点 存 为 叶 贡 点 


unb 


凡 行 二 元 切 分 


在 右 子 树 调用 createTree( ) 方 法 


在 左 子 树 调用 createTree( ) 方 法 


打开 文本 编辑 器 ， 创 建文 件 regTrees .py 并 添加 如 下 代码 。 
程序 清单 9-1 CART 算 法 的 实现 代码 


from numpy import * 


def loadDataSet(fileName): 


dataMat - [] 


fr - open(fileName) 


for line in fr.readlines(): 


curLine = line.strip().split('\t') 


手 行 映 射 成 浮 点 数 


ES 
© 
E 
性 


fltLine = map(float,curLine) 


dataMat.append(fltLine) 


return dataMat 


def binSplitDataSet(dataSet, feature, value): 


matO = dataSet[nonzero(dataSet[:,feature] > value)[0],:][0] 


mati = dataSet[nonzero(dataSet[:,feature] <= value)[0],:][0] 


return mat, matı 


def createTree(dataSet, leafType=regLeaf, errType=regErr, ops=(1,4)): 


feat, val = chooseBestSplit(dataSet, leafType, errType, ops) 


n 


#@ 满足 停止 条 件 时 返 


叶 节 点 值 


if feat == None: return val 


retTree = {} 

retTree['spInd'] = feat 

retTree['spVal'] = val 

lSet, rSet = binSplitDataSet(dataSet, feat, val) 
retTree['left'] = createTree(lSet, leafType, errType, ops) 
retTree['right'] - createTree(rSet, leafType, errType, ops) 


return retTree 


Liter Bees hae: 第 一 个 函数 是 loadpataset() ， 该 函数 与 
其 他 章节 中 同名 函数 功能 类 似 。 在 前 面 的 章节 中 ， 目 标 变量 会 单独 存 
放 其 目 己 的 列表 中 ， 但 这 里 的 数据 会 存放 在 一 起 。 该 函数 读 取 一 个 以 
tab 键 为 分 隅 符 的 文件 ， 然 后 将 每 行 的 内 容 保存 成 一 组 浮 点 数 @ 。 


第 二 个 画 数 是 binsplitpataset() ， 该 函数 有 3 个 参数 ， 数 据 集合 、 待 
切 分 的 特征 和 该 特征 的 某 个 值 。 在 给 定 特征 和 特征 值 的 情况 下 ， 该 画 
数 通过 数组 过 滤 方 式 将 上 述 数据 集合 切 分 得 到 两 个 子 集 并 返回 。 


最 后 一 个 函数 是 树 构建 函数 createTree() ， 它 有 4 个 参数 : 数据 集 和 其 
他 3 个 可 选 参数 。 这 些 可 选 参数 决定 了 树 的 类 型 : leafType 给 出 建立 叶 
万 点 的 函数 ;errType 代表 误差 计算 函数 ; Mops 是 一 个 包含 树 构建 所 
需 其 他 参数 的 元 组 。 


函数 createTree() 是 一 个 递归 函 数 。 该 函数 冲 移 和 演 试 将 数据 集 分 成 两 
^u 2. 切 分 由 函数 chooseBestSplLit() 完成 (这 里 未 给 出 该 函数 的 实 
现 ) 。 如 果 满 足 停止 条 件 ，chooseBestsplit() 将 返回 None 和 某 类 模型 
的 值 @。 如 果 构 建 的 是 回归 树 ， 该 模型 是 一 个 常数 。 如 果 是 模型 树 ， 
其 模型 是 一 个 线性 方程 。 后 面 会 看 到 停止 条 件 的 作用 方式 。 如 果 不 满 
足 停止 条 件 ，chooseBestsplit() 将 创建 一 个 新 的 Python 字典 并 将 数据 
pie 在 这 两 份 数 据 集 上 将 分 别 继续 递归 调用 createTree() ER 


程序 清单 9-1 的 代码 很 容易 理解 ， Eos eye ag 
有 时 尚未 实现 ， 所 以 函数 还 不 能 看 到 createTree() J 实际 效果 。 但 是 
A 。 将 程序 清单 9-1 的 代码 保存 在 文 
件 regTrees.py 中 并 在 Python 提示 符 下 输入 如 下 命令 : 


>>> import regTrees 


>>> testMat=mat(eye(4) ) 


>>> testMat 


matrix([[ 1., ©., ©., 60.], 


这 样 就 创建 了 一 个 简单 的 和 矩阵， 现在 按 指定 列 的 某 个 值 来 切 分 该 矩 
BE o 


>>> matO,mati=regTrees.binSplitDataSet(testMat,1,0.5) 
>>> mato 

matrix([[ O., 1., ©., 0.]]) 

>>> matı 


matrix([[ 1., ©., ©., 0.], 


很 有 趣 吧 。 下 面 给 出 回归 树 的 chooseBestsplit() KA, x^ 298 
趣 的 结果 。 下 一 节 将 针对 回归 树 构建 ， 在 chooseBestsplit() 函数 里 加 
之 后 就 可 以 使 用 程序 清单 9-1 的 CART 算 法 来 构建 回归 

对 。 


9.3 “将 CART 算 法 用 于 回归 


要 对 数据 的 复杂 关系 建 模 ， 我 们 已 经 决定 借用 树 结构 来 帮助 切 分 数 
据 ， 那 么 如 何 实现 数据 的 切 分 呢 ? 怎么 才能 知道 是 否 已 经 充分 切 分 
We? 这 些 问题 的 答案 取决 于 叶 节 点 的 建 模 方 式 。 回 归 树 假设 时 节点 是 
党 数值， 这 种 策略 认为 数据 中 的 复杂 关系 可 以 用 树 结构 来 概括 。 


为 成 功 构建 以 分 段 常 数 为 叶 市 点 的 树 ， 需 要 度量 出 数据 的 一 致 性 。 第 3 
章 使 用 树 进 行 分 类 ， 会 在 给 定 节点 时 计算 数据 的 混乱 度 。 那 么 如 何 计 
算 连 续 型 数值 的 混乱 度 呢 ?事实 上 ， 在 数据 集 上 计算 混乱 度 是 非常 们 
单 的 。 上 自 先 计算 所 有 数据 的 均值 ， 然 后 计算 每 条 数据 的 值 到 均值 的 差 
值 。 为 了 对 正 负 差 值 同等 看 待 ， 一 般 使 用 绝对 值 或 平方 值 来 代替 上 述 
送 值 。 上 述 做 法 有 点 类 似 于 前 面 介绍 过 的 统计 学 中 常用 的 方差 计算 。 
唯一 的 不 同 就 是 ， 方 差 是 平方 误差 的 均值 ( 均 方差 ) ， 而 这 里 需要 的 
是 平方 误差 的 总 值 (总 方差 ) 。 总 方差 可 以 通过 均 方差 乘 以 数据 集中 
样本 点 的 个 数 来 得 到 。 


有 了 上 述 误差 计算 准则 和 上 一 节 中 的 树 构 建 算法 ， 下 面 就 可 以 开始 构 
建 数据 集 上 的 回归 树 了 。 


9.3.1 ”构建 树 


构建 回归 树 ， 需 要 补充 一 些 新 的 代码 ， 使 程序 清单 9-1 中 的 函数 
createTree() 得 以 运转 。 首 先 要 做 的 束 古 实现 chooseBestsplit() ÉK 
数 。 给 定 某 个 误差 计算 方法 ， 该 函数 会 找到 数据 集 上 最 佳 的 二 元 切 分 
方式 。 另 外 ， 该 函数 还 要 确定 什么 时 候 停止 切 分 ， 一 旦 停止 切 分 会 
成 一 个 时节 点 。 因 此 ， Eq 2 chooseBestSplit() 只 需 完 成 两 件 事 : 用 最 
佳 方式 切 分 数据 集 和 生成 相应 的 时节 点 。 


从 程序 清单 9-1 可 以 看 出 ， 除 了 数据 集 以 外 ， 函 数 chooseBestsplit() 还 
有 1leafType ^ errType flops 这 三 个 参数 。 其 中 leafType 是 对 创建 叶 节 
氮 的 函数 的 引用 ，errType 是 对 前 面 介 绍 的 总 方差 计算 函数 的 引用 ， 而 
ops 是 一 个 用 户 定 义 的 参数 构成 的 元 组 ， 用 以 完成 树 的 构建 。 


下 面 的 代码 中 ， Ed Z M chooseBestsplit() 最 复杂 ， 该 男 数 的 目标 是 找到 
数据 集 切 分 的 最 佳 位 置 。 它 遍历 所 有 的 特征 及 其 可 能 的 取 值 来 找到 使 
误 疙 最 小 化 的 切 分 病 值 。 该 贸 数 的 伪 代 码 大 致 如 下 : 


对 每 个 特征 : 


对 每 个 特征 值 : 


将 数据 集 切 分 成 两 份 


计算 切 分 的 误差 


M 


当前 最 小 误差 ， 那 么 将 当前 切 分 设 定 为 最 佳 切 分 并 更 新 最 小 误差 


如 果 当 前 误差 小 


高 


习 最 佳 切 分 的 特征 和 靖 值 


下 面 给 出 上 述 三 个 函数 的 具体 实现 代码 。 打 开 regTrees.py 文件 并 加 入 
程序 清单 9-2 中 的 代码 。 


程序 清单 9-2 ”回归 树 的 切 分 画 数 


def regLeaf(dataSet ) : 


return mean(dataSet[:,-1]) 


def regErr(dataSet): 


return var(dataSet[:,-1]) * shape(dataSet) [0] 


def chooseBestSplit(dataSet, leafType=regLeaf, errType=regErr, ops=(1,4)): 


tolS = ops[0]; tolN = ops[1] 


#0 (以 下 两 行 ) WRATH 


Lu 


if len(set(dataSet[:,-1].T.tolist()[0])) == 1: 


return None, leafType(dataSet ) 


m,n = shape(dataSet) 


S = errType(dataSet) 


bestS = inf; bestIndex = 0; bestValue = 0 


for featIndex in range(n-1): 


for splitVal in set(dataSet[:,featIndex]): 


mato, mati = binSplitDataSet(dataSet, featIndex, splitVal) 


if (shape(mat0)[0] < tolN) or (shape(mat1)[0] < tolN): continue 


newS = errType(matO) + errType(mat1) 


if newS « bestS: 


bestIndex = featIndex 


bestValue = splitVal 


bestS - newS 


y eum 


#@ (以 下 两 行 ) 如 果 误 差 减 少 不 大 则 退 昌 


if (S - bestS) < tolS: 


return None, leafType(dataSet ) 


matO, mati = binSplitDataSet(dataSet, bestIndex, bestValue) 


if (shape(matG)[0] < tolN) or (shape(mati1)[0] < tolN): 


46 (LAP AT) 如 果 切 分 出 的 数据 集 很 小 则 退出 


return None, leafType(dataSet ) 


return bestIndex,bestValue 


ExtUESFE IS SRBUSS— T ENZIUEregleaf() ， 它 负责 生成 时节 点 。 当 
chooseBestsplit() 函数 确定 不 再 对 数据 进行 切 分 时 ， 将 调用 该 
regLeaf() 函数 来 得 到 时 世 点 的 模型 。 在 回归 树 中 ， 该 模型 其 实 吕 是 目 
标 变 量 的 均值 。 


第 二 个 函数 是 误差 估计 函数 regerr()。 该 贸 数 在 给 定数 据 上 计算 目标 
变量 的 平方 误差 。 当 然 也 可 以 先 计算 出 均值 ， 然 后 计算 每 个 差 值 再 平 
方 。 但 这 里 直接 调用 均 方差 贸 数 var( ) 更 加 方便 。 因 为 这 里 需要 返回 的 
是 总 方差 ， 所 以 要 用 均 方 差 乘 以 数据 集中 样本 的 个 数 。 


第 三 个 函数 是 chooseBestsplit() ， 它 是 回归 树 构建 的 核心 函数 。 该 画 
数 的 目的 是 找到 数据 的 最 佳 二 元 切 分 方式 。 如 果 找 不 到 一 个 “好 ”的 二 
元 切 分 ， 该 函数 返回 None 并 同时 调用 createTree( ) WK EM 
点 ， 叶 节点 的 值 也 将 返回 None 。 接 下 来 将 会 看 到 ， 在 函数 
chooseBestSplit() 中 有 三 种 情况 不 会 切 分 ， 而 是 直接 创建 叶 节 点 2 如 
果 找 到 了 一 个 “好 ”的 切 分 方式 ， 则 返回 特征 编号 和 切 分 特征 值 。 


函数 chooseBestSsplit() 一 开始 为 ops 设 定 了 tols 和 tolN 这 两 个 值 。 它 
们 是 用 户 指 定 的 参数 ， 用 于 控制 函数 的 停止 时 机 。 其 中 变量 tols 是 容 

许 的 误差 下 降 值 ，tolN 是 切 分 的 最 少 样本 数 。 接 下 来 通过 对 当前 所 有 

目标 变量 建立 一 个 集合 ， 郴 数 chooseBestsplLit() 会 统计 不 同 剩余 特征 
值 的 数目 。 如 果 该 数目 为 1， 那 么 就 不 需要 再 切 分 而 直接 返回 @。 然 后 
函数 计算 了 当前 数据 集 的 大 小 和 误差 。 该 误差 s KATIDIR 
行 对 比 ， 来 检查 新 切 分 能 否 降 低 误差 。 下 面 很 快 就 会 看 到 这 一 点 。 


这 样 ， 用 于 找到 最 佳 切 分 的 几 个 变量 谍 被 建立 和 初始 化 了 。 下 面 就 将 
在 所 有 可 能 的 特征 及 其 可 能 取 值 上 毅 历 ， 找 到 最 佳 的 切 分 方式 。 最 佳 
切 分 也 避 ® 是 使 得 切 分 后 能 达到 最 低 误 差 的 切 分 。 如 果 切 分 数据 集 后 效 


果 提 升 不 够 大 ， 那 么 就 不 应 进行 切 分 操作 而 直接 创建 时 节点 @@。 必 外 
还 需要 检查 两 个 切 分 后 的 子 集 大 小 ， 如 果 某 个 子 集 的 大 小 小 于 用 户 定 
义 的 参数 tolN ， 那 么 也 不 应 切 分 。 最 后 ， 如 采 这 些 提前 终止 条 件 都 不 
满足 ， 那 么 束 返 回 切 分 特征 和 特征 值 目 。 


9.3.2 ”运行 代码 


下 面 在 一 些 数 据 上 看 看 上 市 代 码 的 实际 效果 ， 以 图 9-1 的 数据 为 例 ， 我 
们 的 目标 是 从 该 数据 生成 一 栋 回 归 树 。 


将 程序 清单 9-2 中 的 代码 添加 到 regTree.py 文件 并 保存 ， 然 后 在 Python 
提示 符 下 输入 : 


>>>reload(regTrees) 
«module 'regTrees' from 'regTrees.pyc'» 


>>> from numpy import * 


图 9-1 的 数据 存储 在 文件 exee.txt 中 。 
>>> myDat-regTrees.loadDataSet('ex00.txt') 
>>> myMat = mat(myDat) 
>>> regTrees.createTree(myMat) 

{'spInd': 0, 'spVal': matrix([[ 0.48813]]), 
'right': -0.044650285714285733, 


'left': 1.018096767241379} 
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图 9-1 基于 CARI 算 法 构建 回归 树 的 简单 数据 集 
再 看 一 个 多 次 切 分 的 例子 ， 考 虑 图 9-2 的 数据 集 。 
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图 9-2 ”用 于 测试 回归 树 的 分 段 常数 数据 集 


图 9-2 的 数据 保存 在 一 个 以 tab 键 分 隔 的 文本 文档 exe.txt 中 数据 。 为 从 
上 述 数据 中 构建 一 棵 回归 树 ， 在 Python 提示 符 下 敲 入 如 下 命令 : 


>>> myDati-regTrees.loadDataSet('exO.txt') 

>>> myMati=mat (myDat1) 

>>> regTrees.createTree(myMat1) 

{'spInd': 1, 'spVal': matrix([[ 0.39435]]), 'right': {'spInd': 1, 'spVal': 


matrix([[ 0.197834]]), 'right': -0.023838155555555553, 'left': 


1.0289583666666664), 'left': {'spInd': 1, 'spVal': matrix([[ 0.582002]]), 
'right': 1.9800350714285717, 'left': {'spInd': 1, 'spVal': matrix([[ 


0.797583]]), 'right': 2.9836209534883724, 'left': 3.9871632000000004}}} 


可 以 检查 一 下 该 树 的 结构 以 确保 树 中 包 侣 5 个 时节 点 。 读 者 也 可 以 在 更 
复杂 的 数据 集 上 构建 回归 树 并 观察 实验 结 


到 现在 为 止 ， 已 经 完成 回归 树 的 构建 ， 但 是 需要 某 种 措施 来 检查 构建 
过 程 否 得 当 。 下 面 将 介绍 树 哀 校 (tree pruning) 技术 ， 它 通过 对 决策 
DYES SORIA Bl] E ATMA ° 


9.4 TIBIA 
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么 ， 如 何 判断 是 否 发 生 了 过 拟 合 ? 前 面 章 节 中 使 用 了 测试 集 上 某 种 交 
又 验证 技术 来 发 现 过 拟 合 ， 决 策 树 亦 是 如 此 。 本 节 将 对 此 进行 讨论 ， 
并 分 析 如 何 避 免 过 拟 合 。 


通过 降低 决策 树 的 复杂 度 来 避免 过 拟 合 的 过 程 称 为 前 枝 (pruning) 
其 实 本 章 前 面 已 经 进行 过 剪 校 处 理 。 在 函数 chooseBestsplit() 中 的 提 
前 终止 条 件 ， 实 际 上 是 在 进行 一 种 所 谓 的 预 剪 枝 (prepruning) 操作 。 
另 一 种 形式 的 剪 校 需要 使 用 测试 集 和 训练 集 ， 称 作 后 剪 校 

。 本 市 将 分 析 后 茧 枝 的 有 戏 性 ， 但 首先 来 看 一 下 预 况 枝 


9.4.1 ” 预 前 枝 


上 市 两 个 简单 实验 的 结果 还 是 令 人 满意 的 ， 但 背后 存在 一 些 问 题 。 树 

构建 算法 其 实 对 输入 的 参数 tols 和 tolnN 非常 敏感 ， 如 果 使 用 其 他 值 将 

ees. 。 为 了 说 明 这 一 点 ， 在 Python 提示 符 下 输入 
[下 命令 : 


>>> regTrees.createTree(myMat,ops-(0,1)) 


与 上 节 中 只 包含 两 个 斑点 的 树 相 比 ， 这 里 构建 的 树 过 于 脆 肿 ， 它 甚至 
为 数据 集中 每 个 样本 都 分 配 了 一 个 时 节点 。 


图 9-3 中 的 散 点 图 ， 看 上 去 与 图 9-1 非 党 相似 。 但 如 采 仔 细 地 观察 y 轴承 
会 发 现 ， 前 者 的 数量 级 是 后 者 的 100 倍 。 这 将 不 是 问题 ， 对 吧 ? 现在 用 
该 数据 来 构建 一 棵 新 的 树 (数据 存放 在 ex2.txt H) ， 在 Python 提示 符 
PRADA Rare: 


>>> myDat2-regTrees.loadDataSet('ex2.txt') 

>>> myMat2-mat(myDat2) 

>>> regTrees.createTree(myMat2) 

{'spInd': 0, 'spVal': matrix([[ 0.499171]]), 'right': {'spInd': 0, 
'spVal': matrix([[ 0.457563]]), 'right': -3.6244789069767438, 


'left': 7.9699461249999999}, '1 


©, 'spVal': matrix([[ 0.958512]]), 'right': 112.42895575000001, 
'left': 105.248 


2350000001}}}} 
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图 9-3 将 图 9-1 的 数据 的 y 轴 放大 100 倍 后 的 新 数据 集 


不 知 你 注意 到 没有 ， 从 图 9-1 数 据 集 构 建 出 来 的 树 只 有 两 个 时 节点 ， 而 
这 里 构建 的 新 树 则 有 很 多 叶 节 点 。 产 生 这 个 现象 的 原因 在 于 ， 停 止 条 
件 tols 对 误差 的 数量 级 十 分 敏感 。 如 果 在 选项 中 花费 时 间 并 对 上 述 误 
差 容忍 度 取 平方 值 ， 或 许 也 能 得 到 仪 有 两 个 叶 市 点 组 成 的 树 : 


>>> regTrees.createTree(myMat2, ops=(10000, 4) ) 


{'spInd': ©, 'spVal': matrix([[ 0.499171]]), 'right': -2.6377193297872341, 


'left': 101.35815937735855} 


然而 ， 通 过 不 断 修 改 停止 条 件 来 得 到 合理 结果 并 不 是 很 好 的 办 法 。 事 
实 上 ， 我 们 常常 甚至 不 确定 到 底 需 要 寻找 什么 样 的 结果 。 这 正 古 机 器 
学 习 所 关注 的 内 容 ， 计 算 机 应 该 可 以 给 出 总 体 的 概貌 。 


下 节 将 讨论 后 剪 枝 ， 即 利用 测试 集 来 对 树 进行 剪 枝 。 由 于 不 需要 用 户 
指定 参数 ， 后 前 枝 是 一 个 更 理想 化 的 剪 枝 方法 。 


9.4.2 ”后 剪 枝 

使 用 后 剪 校方 法 需要 将 数据 集 分 成 测试 集 和 训练 集 。 首 先 指 定 参 数 ， 
使 得 构建 出 的 树 足 够 大 、 足 够 复杂 ， 便 于 剪 校 。 接 下 来 从 上 而 下 找到 
叶 池 点， 用 测试 集 来 判断 将 这 些 叶 和 点 合并 是 否 能 降低 测试 误差 。 如 
REEMA ° 

函数 prune0 的 伪 代 码 如 下 : 


F1 


了 的 树 切 分 测试 数据 : 


zi 


如 果 存 在 任 一 子 集 是 一 棵 树 ， 则 在 该 


al. 


递归 剪 枝 过 程 


计算 将 当前 两 个 叶 节点 合并 后 的 误差 


计算 不 合并 的 误差 


如 果 合 并 会 降低 误差 的 话 ， 就 将 叶 节 点 合 


为 了 解 实际 效果 ， 打 开 regTrees.py 并 输入 程序 清单 9-3 的 代码 。 
程序 清单 9-3 [BART BUE 


def isTree(obj): 


return (type(obj). name --'dict') 


def getMean(tree): 


if isTree(tree['right']): tree['right'] - getMean(tree['right']) 


if isTree(tree['left']): tree['left'] = getMean(tree['left']) 


return (tree['left']+tree['right'])/2.0 


def prune(tree, testData): 


809 ”没有 测试 数据 则 对 树 进行 塌陷 处 理 


if shape(testData)[0] == 0: return getMean(tree) 


if (isTree(tree['right']) or isTree(tree['left'])): 


lSet, rSet - binSplitDataSet(testData, tree['spInd'],tree['spVal']) 


if isTree(tree['left']): tree['left'] = prune(tree['left'], lSet) 


if isTree(tree['right']): tree['right'] - prune(tree['right'], rSet) 


if not isTree(tree['left']) and not isTree(tree['right']): 


lSet, rSet = binSplitDataSet(testData, tree['spInd'],tree['spVal']) 


errorNoMerge = sum(power(lSet[:,-1] - tree['left'],2)) +sum(power(rSet[: 
,-1] - tree['right'],2)) 


treeMean = (tree['left']+tree['right'])/2.0 


errorMerge - sum(power(testData[:,-1] - treeMean,2)) 


if errorMerge « errorNoMerge: 


print "merging" 


return treeMean 
else: return tree 


else: return tree 


程序 清单 9-3 中 包含 三 个 函数 : isTree() ^ getMean() 和 prune() 。 其 中 
isTree() 用 于 测试 输入 变量 是 否 是 一 棵 树 ， 返 回 布尔 类 型 的 结果 。 换 
Aidit, HBR TFT SS BAA eet A o 


函数 getMean() 是 一 个 递归 函数 ， 它 从 上 往 下 遍历 树 直 到 时节 点 为 止 。 
如 果 找 到 两 个 时 巴 点 则 计算 它们 的 平均 值 。 该 男 数 对 树 进 行 塌陷 处 理 
( 即 返 回 树 平 均值 ) ， 在 prune() 函数 中 调用 该 函数 时 应 明确 这 一 点 。 


程序 清单 9-3 的 主 函 数 是 prune() ， 它 有 两 个 参数 : FERIA BK 
所 需 的 测试 数据 testpata ° prune() 函数 首先 需要 确认 测试 集 是 否 为 空 
@。 一 旦 非 空 ， 则 反复 递归 调用 函数 prune( ) 对 测试 数据 进行 切 分 。 
为 树 是 由 其 他 数据 集 (训练 集 ) 生成 的 ， 所 以 测试 集 上 会 有 一 些 样 本 
与 原 数 据 集 样本 的 取 值 范围 不 同 。 一 旦 出 现 这 种 情况 应 当 怎 么 办 ? 数 
据 发 生 过 拟 合 应 该 进行 驳 枝 吗 ? 或 者 模型 正确 不 需要 任何 剪 校 ? 这 里 
假设 发 生 了 过 拟 合 ， 从 而 对 树 进 行 鸡 校 。 


接 下 来 要 检查 某 个 分 文 到 克 是 子 树 还 是 节操 。 如 末 是 子 树 ， 束 调用 画 
数 prune( ) 来 对 该 子 树 进 行 前 校 。 在 对 左右 两 个 分 支 完 成 六 校 之后， 还 
需要 检查 它们 是 否 仍然 还 是 子 树 。 如 果 两 个 分 文 已 经 不 再 是 子 树 ， 那 
么 驶 可 以 进行 合并 。 有 具体 做 法 是 对 合并 前 后 的 误 关 进行 比较 。 如 采 合 
ORERE E E 肥 之 则 不 合并 直接 返 


接 下 来 看 看 实际 效果 ， 将 程序 清单 9-3 的 代码 添加 到 regTrees.py 文件 并 
保存 ， 在 Python 提 示 符 下 输入 下 面 的 命令 : 


>>> reload(regTrees) 


«module 'regTrees' from 'regTrees.pyc'» 


为 了 创建 所 有 可 能 中 最 大 的 树 ， 输 入 如 下 命令 : 


>>> myTree-regTrees.createTree(myMat2, ops=(0,1)) 


输入 以 下 命令 导入 测试 数据 : 
>>> myDatTest-regTrees.loadDataSet('ex2test.txt') 


>>> myMat2Test=mat (myDatTest) 


输入 以 下 命令 ,执行 前 校 过 程 : 
>>> regTrees.prune(myTree, myMat2Test) 
merging 
merging 


merging 


merging 


{'spInd': 0, 'spVal': matrix([[ 0.499171]]), 'right': {'spInd': ©, 'spVal': 


O1, 'left': {'spInd': ©, 'spVal': matrix([[ 0.960398]]), 'right': 123.559747, 


'left': 112.386764}}}, 'left': 92.523991499999994}}}} 
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下 节 将 重用 部 分 已 有 的 树 构建 代码 来 创建 一 种 新 的 树 。 该 树 仍 采用 二 
元 切 分 ， 但 叶 节点 不 再 是 简单 的 数值 ， 取 而 代 之 的 是 一 些 线性 模型 。 


9.5 ”模型 树 


用 树 来 对 数据 建 模 ， 除 了 把 叶 节 点 简单 地 设 定 为 常数 值 之 外 ， 还 有 一 
种 方法 是 把 叶 节 点 设 定 为 分 段 线性 函数 ， 这 里 所 谓 的 分 段 线性 

(piecewise linear) 是 指 模型 由 多 个 线性 片段 组 成 。 如 果 读 者 仍 不 清 
楚 ， 下 面 很 快 就 会 给 出 样 例 来 帮助 理解 。 考 虑 图 9-4 中 的 数据 ， 如 果 使 
用 两 条 直线 拟 合 是 否 比 使 用 一 组 常数 来 建 模 好 呢 ? 答案 显而易见 。 可 
以 设计 两 条 分 别 从 0.0~0.3、 从 0.3~1.0 的 直线 ， 于 是 就 可 以 得 到 两 个 线 
性 模型 。 因 为 数据 集 里 的 一 部 分 数据 (0.0~0.3) 以 某 个 线性 模型 建 
模 ， 而 另 一 部 分 数据 (0.3~1.0) 则 以 另 一 个 线性 模型 建 模 ， 因 此 我 们 
说 采用 了 所 请 的 分 段 线性 模型 


决策 树 相 比 于 其 他 机 鼠 学 习 算 法 的 优势 之 一 在 于 结果 更 易 理 解 。 很 显 
然 ， 两 条 直线 比 很 多 太后 组 成 一 棵 大 树 更 容易 解释 。 模 型 树 的 可 解释 
性 是 它 优 于 回归 树 的 特点 之 一 。 男 外 ， 模 型 树 也 具有 更 高 的 预测 准确 


度 
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图 9-4 ”用 来 测试 模型 树 构 建 画 数 的 分 段 线 性 数据 


前 面 的 代码 稍 加 修改 束 可 以 在 时 节点 生成 线性 模型 而 不 是 间 数 值 。 下 
面 将 利用 树 生成 算法 对 数据 进行 切 分 ， 且 每 份 切 分 数据 都 能 很 容易 被 
线性 模型 所 表示 。 该 算法 的 关键 在 于 误差 的 计算 。 


前 面 已 经 给 出 了 树 构建 的 代码 ， 但 是 这 里 仍然 需要 给 出 每 次 切 分 时 用 
于 误差 计算 的 代码 。 不 知道 读者 是 否 还 记得 之 前 createTree() 函数 里 
有 两 个 参数 从 未 改变 过 。 回 归 树 把 这 两 个 参数 固定 ， 而 此 处 略 做 修 
改 ， 从 而 将 前 面 的 代码 重用 于 模型 树 。 


下 一 个 问题 束 是 ， 为 了 找到 最 佳 切 分 ， 应 该 上 怎样 计算 误 夸 呢 ? 前 面 用 
于 回归 树 的 误差 计算 方法 这 里 不 能 再 用 。 稍 加 变化 ， 对 于 给 定 的 数据 
集 ， 应 该 先 用 线性 的 模型 来 对 它 进 行 拟 合 ， 然 后 计算 真实 的 目标 值 与 


模型 预测 值 间 的 差 值 。 最 后 将 这 些 差 值 的 平方 求 和 就 得 到 了 所 需 的 误 
差 。 为 了 解 实 际 效 果 ， 打 开 regTrees.py 文件 并 加 入 如 下 代码 。 


程序 清单 9-4 ”模型 树 的 叶 节点 生成 函数 


def linearSolve(dataSet): 


m,n = Shape(dataSet ) 


# @ (以 下 两 行 ) 将 X 与 Y 中 的 数据 格式 化 


X = mat(ones((m,n))); Y = mat(ones((m,1))) 


X[:,1:n] = dataSet[:,0:n-1]; Y = dataSet[:,-1] 


XTX = X.T*X 


if linalg.det(xTx) == 0.0: 


raise NameError('This matrix is singular, cannot do inverse, \n\ 


try increasing the second value of ops') 


ws = XTX.I * (X.T * Y) 


return ws, X, Y 


def modelLeaf(dataSet): 


ws,X,Y = linearSolve(dataSet ) 


return ws 


def modelErr(dataSet): 


ws,X,Y = linearSolve(dataSet) 
yHat = X * ws 


return sum(power(Y - yHat, 2)) 


上 述 程 序 清单 中 的 第 一 个 函数 是 linearsolve( ) 它 会 被 其 他 两 个 函数 
调用 。 其 主要 功能 是 将 数据 集 格式 化 成 目标 变量 Y FA x @。 与 第 8 
章 一 样 ，x Ally 用 于 执行 简单 的 线性 回归 。 另 外 在 这 个 函数 中 也 应 当 注 
意 ， 如 有 果 和 矩阵 的 逆 不 存在 也 会 造成 程序 异常 。 


第 二 个 函数 modelLeaf() 与 程序 清单 9-2 里 的 画 数 regLeaf() 类 似 ， 当 数 
据 和 再 需要 切 分 的 时 候 它 负责 生成 叶 节 点 的 模型 。 该 函数 在 数据 集 上 
调用 linearsolve() 并 返回 回归 系数 ws ° 


最 后 一 个 函数 是 modelErr() ， 可 以 在 给 定 的 数据 集 上 计算 误差 。 它 与 
程序 清单 9-2 的 函数 regErr() 类 似 ， 会 被 chooseBestsplit() 调用 来 找到 
最 佳 的 切 分 。 该 函数 在 数据 集 上 调用 linearsolve() ， 之 后 返回 yHat 和 
y 之 间 的 平方 误差 。 


至 此 ， 使 用 程序 清单 9-1 和 9-2 中 的 函数 构建 模型 树 的 全 部 代码 已 经 完 
T 。 为 了 解 实 际 效 果 ， 保 存 regTrees ,py 文件 并 在 Python 提示 符 下 输 


>>> reload(regTrees) 


«module 'regTrees' from 'regTrees.pyc'» 


图 9-4 的 数据 已 保存 在 一 个 用 tab 键 为 分 隔 符 的 文本 文件 exp2.txt 里 。 


>>> myMat2 = mat(regTrees.loadDataSet('exp2.txt')) 


为 了 调用 函数 createTree() 和 模型 树 的 函数 ， 需 将 模型 树 函 数 作为 
createTree() 的 参数 ， 输入 下 面 的 命令 : 


>>> regTrees.createTree(myMat2, regTrees.modelLeaf, regTrees.modelErr,(1,10)) 


{'spInd': 0, 'spVal': matrix([[ 0.285477]]), 'right': matrix([[3.46877936], [ 1. 
18521743]]), 'left': matrix([[ 1.69855694e-03], 


[ 1.19647739e+01]])} 


可 以 看 到 ， 该 代码 以 0.285 477 为 界 创建 了 两 个 模型 ， 而 图 9-4 的 数据 实 
际 在 0.3 处 分 段 。createTree() 生成 的 这 两 个 线性 模型 分 别 是 y = 3.468 
+ 1.1852 fly = 0.001 698 5 + 11.964 77x ， 与 用 于 生成 该 数据 的 真实 
模型 非常 接近 。 该 数据 实际 是 由 模型 y = 3.5 + 1.0x Ally = © + 12x 再 
。 在 图 9-5 上 可 以 看 到 图 9-4 的 数据 以 及 生成 的 线性 
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图 9-5 在 图 9-4 数 据 集 上 应 用 模型 树 算法 得 到 的 结果 
哪 一 种 模型 更 好 呢 ? 一 个 比 
* 该 相关 系数 可 以 通过 调 


模型 树 、 回 归 树 以 及 第 8 章 里 的 其 他 模型 ， 
其 中 yHat 


较 客 观 的 方法 是 计算 相关 系数 ， 也 称 为 R: 值 
用 NumPy 库 中 的 命 人 令 corrcoef(yHat，y，rowvar=0) 来 求解 
是 预测 值 ，y 是 目标 变量 的 实际 值 。 

前 一 章 使 用 了 标准 的 线性 回归 法 ， 本 章 则 使 用 了 树 回归 法 ， 下 面 将 通 
过 实例 对 二 者 进行 比较 ， 最 后 用 函数 corrcoef( ) 来 分 析 哪 个 模型 是 最 


优 的 。 


9.6 ANB: 树 回归 与 标准 回归 的 比较 


前 面 介绍 了 模型 树 、 回 归 树 和 一 般 的 回归 方法 ， 下 面 测试 一 下 哪个 模 
型 最 好 。 本 六 首先 给 出 一 些 函 数 ， 它 们 可 以 在 树 构 建 好 的 情况 下 对 给 
定 的 输入 进行 预测 ， 之 后 利用 这 些 函 数 来 计算 三 种 回归 模型 的 测试 误 
过 。 这 些 模型 将 在 茶 个 数据 上 进行 测试 ， 该 数据 涉及 人 的 智力 水 平和 
目 行车 的 速度 的 关系 。 


这 里 的 数据 是 非 线性 的 ， 不 能 简单 地 使 用 第 8 章 的 全 局 线性 模型 建 模 。 
当然 这 里 也 需要 声明 一 下 ， 此 数据 纯 属 虚构 。 


下 面 先 给 出 在 给 定 输 入 和 树 结 构 情 况 下 进行 预测 的 几 个 函数 。 打 开 
regTrees.py 并 加 入 如 下 代码 。 


程序 清单 9-5 用 树 回归 进行 预测 的 代码 


def regTreeEval(model, inDat): 


return float(model) 


def modelTreeEval(model, inDat): 


n - shape(inDat)[1] 


X = mat(ones((1,n*1))) 


X[:,1:n*1i]-inDat 


return float(X*model) 


def treeForeCast(tree, inData, modelEval-regTreeEval): 


if not isTree(tree): return modelEval(tree, inData) 


if inData[tree['spInd']] > tree['spVal']: 


if isTree(tree['left']): 
return treeForeCast(tree['left'], inData , modelEval) 
else: 
return modelEval(tree['left'], inData) 
else: 
if isTree(tree['right']): 
return treeForeCast(tree['right'], inData , modelEval) 
else: 


return modelEval(tree['right'], inData) 


def createForeCast(tree, testData, modelEval-regTreeEval): 

m-len(testData) 

yHat = mat(zeros((m,1))) 

for i in range(m): 

yHat[i,0] = treeForeCast(tree, mat(testData[i]), modelEval) 

return yHat 
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个 预测 值 。 调 用 函数 treeForecast() 时 需要 指定 树 的 类 型 ， 以 便 在 叶 


节点 上 能 够 调用 合适 的 模型 。 参 数 modelEval 是 对 叶 节 点 数据 进行 预测 
HKS H ° ExetreeForecast() 目 顶 回 下 遍历 整 棵 树 ， 直 到 命中 
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函数 ， 而 该 函数 的 默认 值 是 regTreeEval() ° 


要 对 回归 树叶 市 点 进行 预测 ， 就 调用 函数 regTreeEval() ; 要 对 模型 树 
节点 进行 预测 时 ， 就 调用 modelTreeEval() 函数 。 它 们 会 对 输入 数据 进 
行 格式 化 处 理 ， 在 原 数据 矩阵 上 增加 第 0 列 ， 然 后 计算 并 返回 预测 值 。 
为 了 与 久 数 modelTreeEval() 保持 一 致 ， 尽管 regTreeEval() 只 使 用 一 
个 输入 ， 但 仍 保留 了 两 个 输入 参数 。 


最 后 一 个 函数 是 createForcast() ， 它 会 多 次 调用 treeForecast() K 
数 。 由 于 它 能 够 以 向 量 形式 返回 的 一 组 预测 值 ， 因 此 该 画 数 在 对 整个 
测试 集 进行 预测 时 非常 有 用 。 下 面 很 快 会 看 到 这 一 点 。 


接 下 来 考虑 图 9-6 所 示 的 数据 。 该 数据 是 我 从 多 个 骑 自 行车 的 人 那里 收 
集 得 到 的 。 图 中 给 出 骑 上 自行 车 的 速度 和 人 的 智商 之 间 的 关系 。 下 面 将 
基于 该 数据 集 建 立 多 个 模型 并 在 另 一 个 测试 集 上 进行 测试 。 对 应 的 训 
练 集 数据 保存 在 文件 bikespeedvsIq_train .txt 中 ; 而 测试 集 数 据 保存 
在 文件 bikespeedvsIq_test.txt 中 。 
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图 9-6 ”人 们 骑 自 行车 的 速度 和 他 们 智商 之 间 的 关系 数据 。 该 数据 用 于 
比较 树 回 归 模 型 和 普通 的 线性 回归 模型 


下 面 将 为 图 9-6 的 数据 构建 三 个 模型 。 首 先 ， 将 程序 清单 9-5 中 的 代码 保 
存 为 regTrees.py ， 然 后 在 Python 提示 符 下 输入 以 下 命令 : 


>>>reload(regTrees) 


接 下 来 ， 利 用 该 数据 创建 一 棵 回归 树 : 
>>> trainMat-mat(regTrees.loadDataSet('bikeSpeedVsIq train.txt')) 
>>> testMat-mat(regTrees.loadDataSet('bikeSpeedVsIq test.txt')) 
>>> myTree=regTrees.createTree(trainMat, ops=(1, 20) ) 
>>> yHat = regTrees.createForeCast(myTree, testMat[:,0]) 
>>> corrcoef(yHat, testMat[:,1],rowvar=0)[0,1] 


0.96408523182221306 


同样 地 ， 再 创建 一 棵 模型 树 : 
>>> myTree=regTrees.createTree(trainMat, regTrees.modelLeaf, 
regTrees.modelErr, (1,20) ) 
>>> yHat = regTrees.createForeCast(myTree, testMat[:,0], 
regTrees.modelTreeEval) 
>>> corrcoef(yHat, testMat[:,1],rowvarz0) [0,1] 


0.9760412191380623 
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型 树 的 结 琳 比 回归 树 好 。 下 面 再 看 看 标准 的 线性 回归 戏 来 如 何 ， 这 里 
无 须 导 入 第 8 章 的 任何 代码 ， 本 章 已 实现 过 一 个 线性 方程 求解 函数 


linearSolve(): 


>>> ws,X,Y-regTrees.linearSolve(trainMat) 
>>> WS 
matrix([[ 37.58916794], 


[ 6.18978355]]) 


为 了 得 到 测试 集 上 所 有 的 yHat 预测 值 ， 在 测试 数据 上 循环 执行 : 
>>> for i in range(shape(testMat)[0]): 


yHat [i]=testMat[i, 0]*ws[1,0]+ws[0, 0] 


最 后 来 看 一 下 R’* 值 : 
>>> corrcoef(yHat, testMat[:,1],rowvar=0)[0,1] 


0.94346842356747584 


可 以 看 到 ， 该 方法 在 R: 值 上 的 表现 上 不 如 上 面 两 种 树 回 归 方法 。 所 
以 ， 树 回归 方法 在 预测 复杂 数据 时 会 比 简单 的 线性 模型 更 有 效 ， 相 信 
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性 的 比较 。 


下 面 使 用 Python 提供 的 框架 来 构建 图 形 用户 界 面 (GUI) ， 读 者 可 以 使 
用 该 GUI 来 探究 不 同 的 回归 工具 。 


9.7 ”使 用 Python 的 Tkinter 库 创建 GUI 


机 器 学 习 给 我 们 提供 了 一 些 强大 的 工具 ， 能 从 未 知 数据 中 抽取 出 有 用 
的 信息 。 因 此 ， 能 否 将 这 些 信息 以 易于 人 们 理解 的 方式 呈现 十 分 重 

要 。 再 者 ， 假 如 入 们 可 以 直接 与 算法 和 数据 交互 ， 将 可 以 比较 轻松 地 
进行 解释 。 如 有 果 仅 仅 只 是 绘制 出 一 幅 若 态 图 像 ， 或 者 只 是 在 Python 命令 
行 中 输出 一 些 数字 ， 那 么 对 结果 做 分 机 和 交流 将 非常 困难 。 如 采 能 让 
用 户 不 需要 任何 指令 就 可 以 按照 他 们 目 己 的 方式 来 分 析 数 据 ， 束 不 需 
要 对 数据 做 出 过 多 解释 。 其 中 一 个 能 同时 文 持 数据 硅 现 和 用 户 交 互 的 
方式 就 是 构建 一 个 图 形 用 户 界面 (GUI, Graphical User Interface) ， 如 
图 9-7 所 示 。 


图 9-7 默认 的 treeExplore 图 形 用 户 界 面 ， 该 界面 同时 显示 了 输入 数 
据 和 一 个 回归 树 模型 ， 其 中 的 参数 tolN = 10 ，tols = 1.0 


示例 : 利用 GUI 对 回归 树 调 优 


1. 收集 数据 : 所 提供 的 文本 文件 。 
2. 准备 数据 : 用 Python 解析 上 述 文件 ， 得 到 数值 型 数据 。 


3. 分 析 数 据 : 用 Tkinter 构 建 一 个 GUI 来 展示 模型 和 数据 。 

4. 训练 一 棵 回归 树 和 一 棵 模型 树 ， 并 与 数据 集 一 起 展示 

5. 测试 算法 : 这 里 不 需要 测试 过 程 。 

6. 使 用 算法 : GUI 使 得 人 们 可 以 在 预 剪 校 时 测试 不 同 参数 的 影响 ， 还 

可 以 帮助 我 们 选择 模型 的 类 型 。 

接 下 来 将 介绍 如 何 用 Python 来 构建 GUI。 首 先 介 绍 如 何 利 用 一 个 现 有 的 
模块 Tkinter 来 构建 GUI， 之 后 介绍 如 何在 Tkinter 和 绘图 库 之 间 交 互 ， 最 
后 通过 创建 GUI 使 人 们 能 够 自己 探索 模型 树 和 回归 树 的 奥秘 。 
9.7.1 用 Tkinter 创 建 GUI 
Python 有 很 多 GUI 框 架 ， 其 中 一 个 易于 使 用 的 Tkinter， 是 随 Python 的 标 
准 编译 版 本 发 布 的 。Tkinter 可 以 在 Windows、Mac OS 和 大 多 数 的 Linux 
平台 上 使 用 。 


下 面 各 从 最 条 单 的 Hello World 例 子 开始 。 在 Python 提示 符 下 输入 以 下 命 
T: 


>>> from Tkinter import * 


>>> root = Tk() 


这 时 会 出 现 一 个 小 窗口 或 者 一 些 错误 提示 。 要 想 在 窗口 上 显示 一 些 文 
字 ， 可 以 输入 如 下 命令 : 


>>> myLabel = Label(root, text="Hello World") 


>>> myLabel.grid() 


输入 完毕 后 ， 文 本 框 里 束 会 显示 出 你 刚才 和 输入 的 文字 。 非 常 简单 吧 ! 
为 了 程序 的 完整 ， 应 该 再 输入 以 下 命令 : 


>>> root.mainloop() 


这 条 命令 将 局 动 事件 循环 ， 使 该 窗口 在 众多 事件 中 可 以 响应 姐 标 点 
击 、 按 键 和 重 绘 等 动作 。 


Tkinter 的 GUI 由 一 些小 部 件 (widget) 组 成 。 所 谓 小 部 件 ， 指 的 是 文本 
HE (Text Box) 、 按 钮 (Button) 、 标 签 (Label) 和 复 选 按钮 (Check 
Button) 等 对 象 。 在 刚才 的 Hello World 例 子 中 ， 标 签 myLabel 就 是 其 中 
唯一 的 小 部 件 。 当 调用 myLabel 的 .grid() 方法 时 ， 就 等 于 把 myLabel 的 
位 置 告诉 了 布局 管理 器 (Geometry Manager) 。Tkinter 中 提供 了 几 种 不 
同 的 布局 管理 器 ， 其 中 的 .grid() 方法 会 把 小 部 件 安 排 在 一 个 二 维 的 表 
Tos 用 户 可 以 设 定 每 个 小 部 件 所 在 的 行列 位 置 。 这 里 没有 做 任何 设 
定 ，myLabel 会 默认 显示 在 0 行 0 列 。 


下 面 将 所 需 的 小 部 件 集成 在 一 起 构建 树 管理 器 。 建 立 一 个 新 的 Python 文 
件 treeExplore.py ， 并 在 其 中 加 入 程序 清单 9-6 的 代码 。 


程序 清单 9-6 用 于 构建 树 管理 器 界面 的 Tkinter 小 部 件 


from numpy import * 


from Tkinter import * 


import regTrees 


def reDraw(tolS,tolN): 


pass 


def drawNewTree(): 


pass 


root-Tk() 


Label(root, text="Plot Place Holder").grid(row=0, columnspan=3) 


Label(root, text="to1N").grid(row=1, column=0) 


tolNentry = Entry(root) 


tolNentry.grid(row=1, column=1) 


tolNentry.insert(0,'10') 


Label(root, textz"tolS").grid(row-2, column=0) 


tolSentry - Entry(root) 


tolSentry.grid(row-2, column=1) 


tolSentry.insert(0,'1.0') 


Button(root, text="ReDraw", command=drawNewTree) .grid(row=1, column=2, rowspan=3) 


chkBtnVar = IntVar() 


chkBtn = Checkbutton(root, text="Model Tree", variable = chkBtnVar) 


chkBtn.grid(row=3, column=0, columnspan=2) 


reDraw.rawDat = mat(regTrees.loadDataSet('sine.txt')) 


reDraw.testDat - arange(min(reDraw.rawDat[:,0]),max(reDraw.rawDat[:,0]),0.01) 
reDraw(1.0, 10) 


root.mainloop() 


程序 清单 9-6 的 代码 建立 了 一 组 Tkinter 模 块 ， 并 用 网 格 布 局 管理 器 安排 
了 它们 的 位 置 ， 这 里 还 给 出 了 两 个 绘制 占 位 符 (plot placeholder) ER 
数 ， 这 两 个 函数 的 内 容 会 在 后 面 补充 。 这 里 所 使 用 代码 的 格式 与 前 面 
的 例子 一 致 ， 即 首先 创建 一 个 Tk 类 型 的 根部 件 然 后 插入 标签 。 读 者 可 
以 使 用 .grid( ) 方法 设 定 行 和 列 的 位 置 。 另 外 ， 也 可 以 通过 设 定 
columnspan 和 rowspan 的 值 来 告诉 布局 管理 器 是 否 允许 一 个 小 部 件 跨行 
或 跨 列 。 除 此 之 外 还 有 其 他 设置 项 可 供 使 用 。 


还 有 一 些 新 的 小 部 件 暂时 未 使 用 ， 这 些小 部 件 包 括 文本 输入 框 (Entry 
) 、 复 选 按钮 (Checkbutton ) 和 按钮 整数 值 (Intvar ) 等 。 其 中 

Entry 阐 作 是 一 个 多 许 单 行文 本 输入 的 文 全 证。 ? Checkbutton füntVar 
的 功能 显而易见 : 为 了 读 取 checkbutton 的 状态 需要 创建 一 个 变量 ， 也 


就 是 Intvar ° 


最 后 初始 化 一 些 与 repraw( ) 关联 的 全 局 变量 ， 这 些 变 量 会 在 后 面 用 
到 。 这 里 没有 给 出 “退出 ”按钮 ， Eu c ea 可 以 通过 点 击 
右上 角 关 闭 整 个 窗口 ， 增 加 额外 的 退出 按钮 有 点 多 此 一 举 。 假 如 读者 
真 的 想 添 加 一 个 的 话 ， 1 ea 


Button(root, text='Quit', fg="black", command-root.quit).grid(row-1,column-2) 


保存 程序 清单 9-6 的 代码 并 执行 ， 可 以 看 到 与 图 9-8 类 似 的 图 。 


Plot Place Holder 


tolN 10 


i 


tolS 1.0 
[^ Model Tree 


图 9-8 ”使 用 多 个 Tkinter 部 件 创建 的 树 管 理 器 


现在 GUI 可 以 按照 要 求 正 常 运 行 了 ， 下 面 利用 它 来 绘图 。 接 下 来 的 小 市 
中 将 在 同一 幅 图 上 绘 出 原始 数据 集 及 其 对 应 的 树 回归 预测 值 。 


9.7.2 ”集成 Matplotlib 和 Tkinter 


本 书 已 经 用 Matplotlib 绘 制 过 很 多 图 像 ， 能 否 将 这 些 图 像 直 接 放 在 GUI 
EW? 下 面 将 首先 介绍 “后 端的 概念 ， 然 后 通过 修改 Matplotlib 后 端 
( 仅 在 我 们 的 GUIL 上 ) 达到 在 Tkinter 的 GUI 上 绘图 的 目的 。 


Matplotlib 的 构建 程序 包含 一 个 前 端 ， 也 就 是 面向 用 户 的 一 些 代 码 ， 如 
plot() 和 scatter() FS FXE, 它 同时 创建 了 一 个 后 端 ， 用 于 实 
现 绘图 和 不 同 应 用 之 间接 口 。 通 过 改变 后 端 可 以 将 图 像 绘制 在 PNG、 
PDF、SVG 等 格式 的 文件 上 。 下 面 将 设置 后 端 为 TkAgg (Agg 是 一 个 
C++ 的 库 ， 可 以 从 图 像 创建 光栅 图 :) 。TkAgg 可 以 在 所 选 GUI 框 架 上 
调用 Agg， 把 Agg 至 现在 画布 上 。 我 们 可 以 在 Tk 的 GUI 上 放置 一 个 画 
布 ， 并 用 .grid() 来 调整 布局 。 


1. 光栅 图 也 称 为 位 图 、 点 阵 图 、 像 素 图 ， 按 点 阵 保存 图 像 ， 放 大 会 有 失真 。 与 光栅 图 相对 的 是 矢量 图 ， 也 称 为 向 量 图 。 一 一 译 者 注 


先 用 画布 来 玲 换 绘制 占 位 人 符 ， 删 挥 对 应 标签 并 添加 以 下 代码 : 
reDraw.f = Figure(figsize=(5,4), dpi-100) 
reDraw.canvas = FigureCanvasTkAgg(reDraw.f, master=root) 


reDraw.canvas.show() 


reDraw.canvas.get tk widget().grid(row-0, columnspan=3) 


现在 将 树 创 建 男 数 污 该 画布 链接 起 来 。 看 一 下 实际 效果 ， 打 开 
treeExplore.py 并 添加 下 面 的 代码 。 注 意 我 们 之 前 实现 过 repraw( ) 和 
drawTree() 的 存根 (stub) , 确保 同一 上 函数 不 要 重复 出 现 。 


程序 清单 9-7 Matplotlib 和 Tkinter 的 代码 集成 


import matplotlib 


matplotlib.use('TkAgg' ) 


from matplotlib.backends.backend_tkagg import FigureCanvasTkAgg 


from matplotlib.figure import Figure 


def reDraw(tolS,tolN): 


reDraw.f.clf() 


reDraw.a - reDraw.f.add subplot(111) 


if chkBtnVar.get(): 


#0 检查 复 选 框 是 否 选中 


if tolN < 2: tolN = 2 


myTree=regTrees.createTree(reDraw.rawDat, regTrees.modelLeaf, regTrees.mo 


delErr, (tolS,tolN)) 


yHat - regTrees.createForeCast(myTree, reDraw.testDat, regTrees.modelTre 


eEval) 


else: 


myTree=regTrees.createTree(reDraw.rawDat, ops=(tolS, tolN)) 


yHat = regTrees.createForeCast(myTree, reDraw.testDat) 


reDraw.a.scatter(reDraw.rawDat[:,0], reDraw.rawDat[:,1], s=5) 


reDraw.a.plot(reDraw.testDat, yHat, linewidth=2.0) 


reDraw.canvas.show() 


def getInputs(): 


try: tolN - int(tolNentry.get()) 


except: 


tolN - 10 


print "enter Integer for tolN" 


#@ (以 下 两 行 ) 清除 错误 的 输入 并 用 默认 值 替 换 


tolNentry.delete(0, END) 


tolNentry.insert(0,'10') 


try: tolS - float(tolSentry.get()) 


except: 


tolS - 1.0 


print "enter Float for tols" 


tolSentry.delete(0, END) 
tolSentry.insert(0,'1.0') 


return tolN,tolS 


def drawNewTree(): 
tolN,tolS - getInputs() 


reDraw(tols,tolN) 


上 壕 程 序 中 一 开始 导入 Matplotlib 文 件 并 设 定 后 端 为 TkAgg。 接 下 来 的 
两 个 import 声明 将 TkAgg 和 Matplotlib 图 链接 起 来 。 


先 来 介绍 函数 drawNewTree() 。 从 程序 清单 9-6 可 知 ， 在 有 人 点 击 Repraw 
按钮 时 束 会 调用 该 函数 。 轴 数 实现 了 两 个 功能 : 第 一 ， 调 用 
getInputs() 方法 得 到 输入 框 的 值 ， 第 二 ， 利 用 该 值 调 用 repraw( ) 方法 
生成 一 个 漂亮 的 图 。 下 面 对 这 些 范 数 进 行 逐 个 介绍 。 


函数 getInputs() 试图 理解 用 户 的 输入 并 防止 程序 裔 尝 。 其 中 tols 期 望 
的 输入 是 浮 点 数 ， 而 tolN 期 望 的 输入 是 整数 。 为 了 得 到 用 户 输入 的 文 
本 ， 可 以 在 Entry 部 件 上 调用 .get() 方法 。 虽 然 表 单 验证 会 在 GUI 编程 
时 花费 大 量 的 时 间 ， 但 这 一 点 对 于 用 户 体 验 来 说 必 不 可 少 。 另 外 ， 这 
里 使 用 了 try: 和 except: 模式 。 如 果 Python 可 以 把 输入 文本 解析 成 整数 
就 继续 执行 ， 如 果 不 能 识别 则 输出 错误 消息 ， 同 时 清空 输入 框 并 恢复 
其 默认 值 @。 对 tols 而 言 也 存在 同样 的 处 理 过 程 ， 最 后 返回 输入 值 。 


函数 repraw() 的 主要 目的 是 把 树 绘制 出 来 。 该 函数 假定 输入 是 合法 
的 ， 它 首先 要 做 的 是 清空 之 前 的 图 像 ， 使 得 前 后 两 个 图 像 不 会 重 本 。 
清空 时 图 像 的 各 个 子 图 也 都 会 被 清除 ， 所 以 需要 重新 添加 一 个 新 图 。 
接 下 来 函数 会 检查 复 选 框 是 否 被 选中 四。 根据 复 选 框 是 否 被 选中 ， 确 
定 基 于 tols 和 tolN 参数 构建 模型 树 还 是 回归 树 。 当 树 构建 完成 之 后 就 
对 测试 集 testpat 进行 预测 ， 该 测试 集 与 训练 集 有 相同 的 范围 有 点 的 分 
布 均匀 。 最 后 ， 真 实数 据 和 预测 值 都 被 绘制 出 来 。 具 体 实 现 是 ， 真 实 


值 采用 scatter() 方法 绘制 ， 而 预测 值 则 采用 plot() 方法 绘制 ， 这 是 因 
p uen) 方法 构建 的 是 离散 型 散 点 图 ， 而 plot() 方法 则 构建 连续 曲 
线 。 


下 面 看 一 下 实际 效果 ， 保 存 treeExplore.py 并 执行 。 如 果 读 者 使 用 开 
发 环境 IDE 来 编码 ， 那 么 可 以 用 run 命令 来 运行 程序 。 在 命令 行 下 可 以 
直接 使 用 命令 python treeExplore.py 来 运行 & 执行 完 之 后 应 该 可 以 看 
到 类 似 于 图 9-7 的 结果 。 


图 9-7 的 GUI 包含 了 图 9-8 所 有 的 小 部 件 ， 而 占 位 符 采 用 Matplotlib 图 替 

换 。 默 认 情 况 下 会 给 出 一 棵 包含 八 个 时 节点 的 回归 树 (参见 图 9-7) 。 
我 们 也 可 以 尝试 模 型 树 。 通 过 选中 模型 树 的 复 选 框 ， 再 点 击 ReDraw 按 
钮 ， 就 应 该 可 以 看 到 类 似 于 图 9-9 的 模型 树 结 


图 9-9 用 treeExplore 的 GUI 构 建 的 模型 树 ， 该 图 使 用 了 与 图 9-7 相 同 
的 数据 和 参数 。 与 回归 树 相 比 ， 模 型 树 取 得 了 更 好 的 预测 效果 


读者 可 以 在 上 述 treeExplore 中 尝试 不 同 的 参数 值 。 整 个 数据 集 包含 
200 个 样本 ， 可 以 将 tolN 设 为 150 后 观察 执行 效果 。 为 构建 尽 可 能 大 的 


树 ， 应 当 将 tolN 设 为 1， 将 tolS 设 为 0。 读 者 可 以 测试 一 下 并 观察 执行 的 


效 


9.8 本章 小 结 


数据 集中 经 常 包 含 一 些 复杂 的 相互 关系 ， 使 得 输入 数据 和 目标 变量 之 
间 呈 现 非 线性 关系 。 对 这 些 复 杂 的 关系 建 模 ， 一 种 可 行 的 方式 是 使 用 
树 来 对 预测 值 分 段 ， 包 括 分 段 常 数 或 分 段 直线 。 一 般 采 用 树 结构 来 对 
这 种 数据 建 模 。 相 应 地 ， 若 叶 节 点 使 用 的 模型 是 分 段 常 数 则 称 为 回归 
树 ， 若 叶 节 点 使 用 的 模型 是 线性 回归 方程 则 称 为 模型 树 。 


CART 算 法 可 以 用 于 构建 二 元 树 并 处 理 离散 型 或 连续 型 数据 的 切 分 。 若 
使 用 不 同 的 误差 准则 ， 就 可 以 通过 CARIT 算 法 构建 模型 树 和 回归 树 。 该 
算法 构建 出 的 树 会 倾向 于 对 数据 过 拟 合 。 一 棵 过 拟 合 的 树 常 第 十 分 复 
杂 ， 副 村 技 术 的 出 现 束 是 为 了 解决 这 个 问题 。 两 种 况 枝 方法 分 别 是 预 
SUBE (在 树 的 构建 过 程 中 就 进行 前 枝 ) ABA ( 当 树 构建 完毕 再 进 
行 剪 枝 ) ， 预 剪 校 更 有 效 但 需要 用 户 定 义 一 些 参 数 。 


Tkinter 是 Python 的 一 个 GUI 工具 包 。 虽 然 并 不 是 唯一 的 包 ， 但 它 最 党 
用 。 利 用 Tkinter， 我 们 可 以 轻松 绘制 各 种 部 件 并 灵活 安排 它们 的 位 
置 。 另 外 ， 可 以 为 Tkinter 构 造 一 个 特殊 的 部 件 来 显示 Matplotlib 绘 出 的 
图 。 所 以 ，Matplotlib 和 Tkinter 的 集成 可 以 构建 出 更 强大 的 GUI， 用 户 
可 以 以 更 目 然 的 方式 来 探索 机 妖 学 习 算 法 的 奥妙 。 


本 章 是 回归 的 最 后 一 章 ， 项 望 读者 没有 错过 。 接 下 来 我 们 将 离开 监督 
学 习 的 岛屿 ， 驶 癌 无 监督 学 习 的 未 知 港湾 。 在 回归 和 分 类 (监督 学 
2]) 中 ， 目 标 变量 的 值 是 已 知 的 。 在 后 面 的 章节 将 会 看 到 ， 无 监督 学 
习 中 上 述 条 件 将 不 再 成 立 。 下 一 章 的 主要 内 容 是 k 均 值 聚 类 算法 。 


第 三 部 分 “无 监督 学 习 


这 一 部 分 介绍 的 是 无 监督 机 器 学 习 方 法 。 该 主题 与 前 两 部 分 有 所 不 
同 。 在 无 监督 学 习 中 ， 类 似 分 类 和 回归 中 的 目标 变量 事先 并 不 存在 。 
与 前 面 “对 于 输入 数据 X 能 预测 变量 Y* 不 同 的 是 ， 这 里 要 回答 的 问题 


是 :“ 从 数据 X 中 能 发 现 什 么 ? ”这 里 需要 回答 的 X 方 面 的 问题 可 能 
ee E ee TS 
A ” 


第 10 章 介绍 了 无 监督 学 习 中 的 聚 类 〈 将 相似 项 聚 团 ) 方法 ， 包 括 k 均 值 
聚 闫 算法。 第 11 章 介绍 了 基于 Apriori 算 法 的 关联 分 析 或 者 称 购物 链 分 
析 。 关 联 分 析 可 以 用 于 回答 “哪些 物品 经 常 被 同时 购买 ? ”之 类 的 问 
题 。 无 监督 学 习 部 分 的 最 后 一 童 ， 即 第 12 章 将 介绍 一 个 更 高 效 的 关联 
分 析 算 法 : FP-growth 算 法 。 


第 10 章 ”利用 KK -均值 案 类 算法 对 未 标 
注 数据 分 组 
本 章 内 容 


k 均 值 聚 类 算法 

WY FARA fe El A IE TT Ja NEE 
二 分 k 均 值 聚 类 算法 

对 地 理 位 置 进 行 聚 类 


在 2000 年 和 2004 年 的 美国 总 统 大 选中 ， 候 选 人 的 得 票数 比较 接近 或 者 
说 非常 接近 。 任 一 候选 人 得 到 的 普选 票数 的 最 大 百分比 为 50.7%， 而 最 
小 百分比 为 47.99%。 如 果 1% 的 选民 将 手中 的 选票 投 癌 另外 的 候选 人 ， 

那么 选举 结果 就 会 截然 不 同 。 实 际 上 ， 如 果 妥 善 加 以 引导 与 吸引 ， 少 
部 分 选民 就 会 转换 立场 。 尽 管 这 类 选举 者 占 的 比例 较 低 ， 但 当 候选 人 
的 选票 接近 时 ， 这 些 人 的 立场 无 疑 会 对 选举 结果 产生 非常 大 的 影响 : 。 
如 何 找 出 这 类 选民 ， 以 及 如 何在 有 限 的 预算 下 采取 措施 来 吸引 他 们 ? 


答案 就 是 聚 类 (Clustering) ° 


A 


. 对 于 微 目标 策略 如 何 成 功用 于 2004 年 的 美国 总 统 大 选 的 细节 ， 请 参见 Fournier ^ Sosnik i Dowd i) Applebee’s America (Simon & Schuster, 2006) 一 书 。 


接 下 来 介绍 如 何 通过 聚 类 实现 上 述 目标 。 首 先 ， 收 集 用户 的 信息 ， 可 
以 同时 收集 用 户 满意 或 不 满意 的 信息 ， 这 是 因为 任何 对 用 户 重 要 的 内 
容 部 可 能 影响 用 户 的 投票 结 来 。 然 后 ， 将 这 些 信息 输入 到 菏 个 案 类 算 


法 中 。 接 着 ， 对 聚 类 结果 中 的 每 一 个 入 (最 好 选择 最 大 簇 ) ， 精 心 构 
~ eee 。 最 后 ， 开 展 竞选 活动 并 观察 上 述 做 法 是 
(E AN o 


FRR EPP TC SA), ERP SR UH I] — 1 BR P. 9 "EUR LS 
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似 ， 聚 类 的 效果 越 好 。 本 章 要 学 习 一 种 称 为 k- 均 值 (K-mean) 聚 类 的 
算法 。 之 所 以 称 之 为 k 均 值 是 因为 它 可 以 发 现 K 个 不 同 的 复 ， 且 每 个 篮 
的 中 心 采用 禾 中 所 侣 值 的 均值 计算 而 成 。 下 面 会 逐步 介绍 该 算法 的 更 


£m o 


2. 这 里 的 自动 意思 是 连 类 别 体系 都 是 自动 构建 的 。 一 一 译 者 注 


在 介绍 k 均 值 算法 之 前 ， 先 讨论 一 下 簇 识别 (cluster identification) 。 
入 识别 给 出 聚 类 结 采 的 含义 。 假 定 有 一 些 数 据 ， 现 在 将 相似 数据 归 到 
一 起 ， 簇 识别 会 告诉 我 们 这 些 复 到 撒 都 是 些 什 么 。 聚 类 与 分 类 的 和 最 大 
不 同 在 于 ， 分 类 的 目标 事先 已 知 ， 而 聚 类 则 不 一 样 。 因 为 其 产生 的 结 
宋 与 分 类 相同 ， 而 只 是 类 别 没 有 预先 定义 ， 聚 类 有 时 也 被 称 为 无 监督 
分 类 (unsupervised classification)» 

聚 类 分 析 试 图 将 相似 对 象 归 入 同一 复 ， 将 不 相似 对 象 归 到 不 同 自 。 相 
似 这 一 概念 取决 于 所 选择 的 相似 度 计 算 方 法 。 前 面 章 方 已 经 介绍 了 不 
同 的 相似 度 计算 方法 ， 后 续 章 市 它们 会 继续 出 现 。 到 底 使 用 哪 种 相似 
度 计算 方法 取决 于 具体 应 用 。 

下 面 会 构建 k 均 值 方法 并 观察 其 实际 效果 。 接 下 来 还 会 讨论 简单 k 均 值 
算法 中 的 一 些 缺 陷 。 为 了 解决 其 中 的 一 些 缺 陷 ， 可 以 通过 后 处 理 来 产 
生 更 好 的 艇 。 接 着 会 给 出 一 个 更 有 效 的 称 为 二 分 k 均 值 (bisecting k- 
means) 的 聚 类 算法 。 本 章 的 最 后 会 给 出 一 个 实例 ， 该 实例 应 用 二 分 K 
均值 算法 来 寻找 同时 造访 多 个 夜生活 热点 地 区 的 最 佳 停车 位 。 


10.1 均值 案 类 算法 
k 均 值 案 类 
优点 : 容易 实现 。 


缺点 : 可 能 收敛 到 局 部 最 小 值 ， 在 大 规模 数据 集 上 收敛 较 慢 。 


适用 数据 类 型 : 数值 型 数据 。 


k 均 值 是 发 现 给 定数 据 集 的 k 个 簇 的 算法 。 簇 个 数 k 是 用 户 给 定 的， 每 
一 个 簇 通 过 其 质心 (centroid) , BUR PAPA RANA UD Fat 。 


k 均 值 算法 的 工作 流程 是 这 样 的 。 首 先 ， 随 机 确定 K 个 初始 点 作为 质 
心 。 然 后 将 数据 集中 的 每 个 点 分 配 到 一 个 复 中 ， 上 有 具体 来 讲 ， 为 每 个 点 
找 距 其 最 近 的 质心 ， 并 将 其 分 配给 该 质心 所 对 应 的 复 。 这 一 步 完 成 之 
后 ， 每 个 篮 的 质心 更 痢 为 该 复 所 有 点 的 平均 值 。 


上 述 过 程 的 伪 代 码 表示 如 下 : 
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| 建 k 个 点 作为 起 始 质心 (经常 是 随机 选择 ) 


当 任 意 一 个 点 的 艇 分 配 结果 发 生 改 变 时 


对 数据 集中 的 每 个 数据 点 


对 每 个 质心 


计算 质心 与 数据 点 之 间 的 距离 


将 数据 点 分 配 到 距 其 最 近 的 簇 


对 每 一 个 戏 ， 计 算 艇 中 所 有 点 的 均值 并 将 均值 作为 质心 


K 均 值 聚 类 的 一 般 流 程 


1. 收集 数据 : 使 用 任意 方法 。 

2. 准备 数据 : 需要 数值 型 数据 来 计算 距离 ， 也 可 以 将 标 称 型 数据 映 
员 为 二 值 型 数据 再 用 于 距离 计算 。 

3. 分 析 数 据 : 使 用 任意 方法 。 

4. 训练 算法 : 不 适用 于 无 监督 学 习 ， 即 无 监督 学 习 没 有 训练 过 程 。 


5. 测 试 算法 : 应 用 聚 类 算法 、 观 察 结 果 。 可 以 使 用 量化 的 误差 指标 
如 误差 平方 和 (后 面 会 介绍 ) 来 评价 算法 的 结果 。 
c. 使 用 算法 : 可 以 用 于 所 布 望 的 任何 应 用 。 通 闻 情 帝 下 ， 复 质心 可 
以 代表 整个 复 的 数据 来 做 出 决策 。 
上 面 提 到 “最 近 ” 质 心 的 说 法 ， 意 味 着 需要 进行 某 种 距离 计算 。 读 者 可 
以 使 用 所 喜欢 的 任意 距离 度量 方法 。 数 据 集 上 k 均 值 算法 的 性 能 会 受到 
所 选 距 离 计算 方法 的 影响 。 下 面 给 出 k 均 值 算 法 的 代码 实现 。 首 先 创 建 
名 为 kMeans.py 的 文件 ， 然 后 将 下 面 程序 清单 中 的 代码 添加 到 文件 
程序 清单 10-1 KERR IFN 


from numpy import * 


def loadDataSet(fileName): 
dataMat - [] 
fr - open(fileName) 
for line in fr.readlines(): 
curLine = line.strip().split('\t') 
fltLine = map(float, curLine) 
dataMat.append(fltLine) 


return dataMat 


def distEclud(vecA, vecB): 


return sqrt(sum(power(vecA - vecB, 2))) 


def randCent(dataSet, k): 


n - shape(dataSet)[1] 


centroids - mat(zeros((k,n))) 


# 构 建 复 质心 

for j in range(n): 
minJ - min(dataSet[:,j]) 
rangeJ - float(max(dataSet[:,j]) - minJ) 
entroids[:,j] = minJ + rangeJ * random.rand(k, 1) 


return centroids 


程序 清单 10-1 中 的 代码 包含 几 个 k 均 值 算法 中 要 用 到 的 辅助 画 数 。 第 一 
个 函数 loadpataset() 和 上 一 章 完 全 相同 ， 它 将 文本 文件 导入 到 一 个 列 
表 中 。 文 本 文件 每 一 行为 tab 分 隅 的 浮 点 数 。 每 一 个 列表 会 被 添 加 到 
dataMat 中 ， 最 后 返回 dataMat 。 该 返回 值 是 一 个 包含 许多 其 他 列表 的 
列表 。 这 种 格式 可 以 很 容易 将 很 多 值 封 狼 到 矩阵 中 。 


一 个 画 数 distEclud() 计算 两 个 向 量 的 欧式 距离 。 这 是 本 章 最 先 使 用 
的 距离 画 数 ， 也 可 以 使 用 其 他 距离 画 数 。 


最 后 一 个 函数 是 randcent() ， 该 函数 为 给 定数 据 集 构建 一 个 包含 K 个 随 
机 质心 的 集合 。 随 机 质心 必 须要 在 束 络 个 数据 集 的 边界 之 内 ， 这 可 以 通 
过 找到 数据 集 每 一 维 的 最 小 和 最 大 值 来 完成 。 然 后 生成 0 到 1.0 之 间 的 随 
机 数 并 通过 取 值 范围 和 最 小 值 ， 以 便 确 保 随机 点 在 数据 的 边界 之 内 。 
接 下 来 看 一 下 这 三 个 函数 的 实际 效果 。 保 存 kMeans.py 文件 ， 然 后 在 
Python 提示 符 下 输入 : 


>>> import kMeans 


>>> from numpy import * 


要 从 文本 文件 中 构建 矩阵 ， 输 入 下 面 的 命令 (第 10 章 的 源 代 码 中 给 出 
了 testset ,txt 的 内 容 ) : 


>>> datMat=mat(kMeans.loadDataSet('testSet.txt')) 


BE RID T — PANEER, Je TLR EF A RE aah oc TK) 
值 算法 。 下 面 看 看 randcent () ERZIUE GE AIT ° Boc. wE BAB 
阵 中 的 最 大 值 与 最 小 值 : 


>>> min(datMat[:,0]) 
matrix([[-5.379713]]) 
>>> min(datMat[:,1]) 
matrix([[-4.232586]]) 
>>> max(datMat[:,1]) 
matrix([[ 5.1904]]) 

>>> max(datMat[:,0]) 


matrix([[ 4.838138]]) 


然后 看 看 randcent() 函数 能 否 生成 min 到 max 之 间 的 值 : 
>>> kMeans.randCent(datMat, 2) 


matrix([[-3.24278889, -0.04213842], 


[-0.92437171, 3.19524231]]) 


MEGA ZR DUE SU, ÉNZXrandcent() 确实 会 生成 min 到 max 之 间 的 
值 。 上 述 结 果 表 明 ， 这 些 函 数 都 能 够 按照 预想 的 方式 运行 。 最 后 测试 
— FIERE RC 


>>> kMeans.distEclud(datMat[0], datMat[1]) 


5.184632816681332 


所 有 文 持 图 数 正 党 运行 之 后 ， 束 可 以 准备 实现 完整 的 k 均 值 算 法 了 。 该 
算法 会 创建 k 个 质心 ， 然 后 将 每 个 点 分 配 到 最 近 的 质心 ， 再 重新 计算 质 
心 。 这 个 过 程 重复 数 次 ， 直 到 数据 点 的 簇 分 配 结 果 不 再 改变 为 止 。 打 
开 kMeans.py 文件 输入 下 面 程序 清单 中 的 代码 。 


程序 清单 10-2 均值 率 类 算法 


def kMeans(dataSet, k, distMeas-distEclud, createCent-randCent): 


m = shape(dataSet)[0] 


clusterAssment - mat(zeros((m,2))) 


centroids - createCent(dataSet, k) 


clusterChanged - True 


while clusterChanged: 


clusterChanged - False 


for i in range(m): 


minDist - inf; minIndex - -1 


for j in range(k): 


#0 (以 下 三 行 ) 寻找 最 近 的 质心 


distJI = distMeas(centroids[j,:],dataSet[i,:]) 


if distJI < minDist: 


minDist - distJI; minIndex - j 


if clusterAssment[i,0] !- minIndex: clusterChanged = True 


clusterAssment[i,:] - minIndex,minDist**2 


新 质心 的 位 置 


#@ (以 下 四 行 ) 


ra 


print centroids 

for cent in range(k): 
ptsInClust = dataSet[nonzero(clusterAssment[:,0].A==cent)[0]] 
centroids[cent,:] = mean(ptsInClust, axis-0) 


return centroids, clusterAssment 


上 述 清单 给 出 了 kk 均值 算法 。kMeans() 函数 接受 4 个 输入 参数 。 只 有 数 
据 集 及 簇 的 数目 是 必 选 参数 ， 而 用 来 计算 距离 和 创建 初始 质心 的 函数 
都 是 可 选 的 。kMeans() 图 数 一 开 始 确 定数 据 集 中 数据 点 的 总 数 ， 然 后 
创建 一 个 矩阵 来 存储 每 个 点 的 簇 分 配 结果 。 禾 分 配 结果 和 矩阵 
clusterAssment 包含 两 列 : 一 列 记 录 簇 索引 值 ， 第 二 列 存 储 误差 。 这 
Rd E 
JA o 


按照 上 述 方 式 〈 即 计算 质心 -分 配 -重新 计算 ) 反复 迭代 ， 直 到 所 有 数据 
点 的 入 分 配 结果 不 再 改变 为 止 。 程 序 中 可 以 创建 一 个 标志 变量 

clusterChanged , 如 果 该 值 为 True 则 继续 迭代 e Ext fi while 
FEARS o fe SRT PUR ARGUS DEI PRA Soe, Cay 


以 通过 对 每 个 点 遇 历 所 有 质心 并 计算 点 到 每 个 质心 的 距离 来 完成 @。 
计算 距离 是 使 用 distMeas 参数 给 出 的 距离 函数 ， 默 认 距 离 函 数 是 
distEclud() ， 该 函数 的 实现 已 经 在 程序 清单 10-1 中 给 出 。 如 果 任 一 点 
的 簇 分 配 结果 发 生 改 变 ， 则 更 新 clusterchanged 标志 。 


最 后 ， 遍 历 所 有 质心 并 更 新 它们 的 取 值 @。 具 体 实现 步 又 如 下 :首先 
通过 数组 过 滤 来 获得 给 定 艇 的 所 有 点 ， 然 后 计算 所 有 点 的 均值 ， 选 项 
axis = 6 表示 沿 和 矩阵 的 列 方向 进行 均值 计算 ; 最后， 程序 返回 所 有 的 
类 质心 与 点 分 配 结果 。 图 10-1 给 出 了 一 个 育 类 结果 的 示意 
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图 10-1 kk 均值 聚 类 的 结果 示意 图 。 图 中 数据 集 在 三 次 迭代 之 后 收敛 。 
形状 相似 的 数据 点 被 分 到 同样 的 簇 中 ， 簇 中 心 使 用 十 字 来 表示 


接 下 来 看 看 程序 清单 10-2 的 运行 效果 。 保 存 kMeans .py 文件 后 ， 在 
Python 所 示人 符 下 输入 : 


>>> reload(kMeans ) 


«module 'kMeans' from 'kMeans.pyc'» 


如 有 果 没 有 将 前 面 例子 中 的 datMat 数据 复制 过 来 ， 则 可 以 输入 下 面 的 命 
令 〈 记 住 要 导入 NumPy) 


>>> datMat=mat(kMeans.loadDataSet('testSet.txt')) 


现在 就 可 以 对 datwat 中 的 数据 点 进行 聚 类 处 理 。 从 图 像 中 可 以 大 概 预 
先知 道 最 后 的 结果 应 该 有 4 个 艇 ， 所 以 可 以 输入 如 下 命令 : 


>>> myCentroids, clustAssing = kMeans.kMeans(datMat,4) 


[[-4.06724228 0.21993975] 


m 
© 


. 73633558 -1.41299247] 


m~ 
N 


-2.59754537 3.15378974] 


rma 
A 


.49190084 3.46005807]] 


m~ 

m 
1 

wo 


62111442 -2.36505947] 


m~ 
N 


.21588922 -2.88365904] 


m~ 
1 
N 


.38799628 2.96837672] 


pr 
N 


.6265299 3.10868015]] 


[[-3.53973889 -2.89384326] 


mi 
N 


.65077367 -2.79019029] 


[-2.46154315 2.78737555] 


[ 2.6265299 3.10868015]] 


Ema Sab e ALLE, ESESUOGRTUZURKTJMBRGUAMA 
敛 。 这 4 个 质心 以 及 原始 数据 的 散 点 图 在 图 10-1 中 给 出 。 


到 目前 为 止 ， 关 于 聚 类 的 一 切 进展 都 很 顺利 ， 但 事情 并 不 总 是 如 此 。 
接 下 来 会 讨论 k 均 值 算法 可 能 出 现 的 问题 及 其 解决 办 法 。 


10.2 ”使 用 后 处 理 来 提高 从 类 性 能 


前 面 提 人 a 到， 在 k 均 值 罕 类 中 艇 的 数目 k 古 一 个 用 户 预 完 定 义 的 参数 ， 那 
么 用 户 如 何 才能 知道 k 的 选择 是 否 正确 ?如何 才能 知道 生成 的 篮 比 较 好 
UE? 在 包 侣 篮 分 配 结 采 的 窍 阵 中 保存 痢 每 个 点 的 误 兰 ， 即 该 点 到 和 族 质 
心 的 距离 平方 值 。 下面 会 讨论 利用 该 误差 来 评价 聚 类 质量 的 方法 。 


考虑 图 10-2 中 的 聚 类 结 琳 ， 这 是 在 一 个 包含 三 个 族 的 数据 集 上 运行 k 均 
值 算法 之 后 的 结 末 ， 但 是 点 的 入 分 配 结 采 值 没有 那么 准确 。k 均 值 算法 
收敛 但 聚 类 效果 较 送 的 原因 是 ，k 均 值 算法 收敛 到 了 局 部 最 小 值 ， 而 非 
全 局 最 小 值 〈 局 部 最 小 值 指 结果 还 可 以 但 并 非 最 好 结果， 全 局 最 小 值 
是 可 能 的 最 好 结果 ) 。 
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图 10-2 ”由 于 质心 随机 初始 化 导致 k 均 值 算 法 效果 不 好 的 一 个 例子 ， 这 
需要 额外 的 后 处 理 操作 来 清理 素 类 结果 


一 种 用 于 度量 聚 类 效果 的 指标 是 SSE (Sum of Squared Error， 误 差 平 方 
Al) ， 对 应 程序 清单 10-2 中 clusterAssment 矩阵 的 第 一 列 之 和 。SSE 值 
越 小 表示 数据 点 越 接近 于 它们 的 质心 ， 聚 类 效果 也 越 好 。 因 为 对 误差 
取 了 平方 ， 因 此 更 加 重视 那些 远离 中 心 的 点 。 一 种 肯定 可 以 降低 SSE 值 
的 方法 是 增加 艇 的 个 数 ， 但 这 违背 了 聚 类 的 目标 。 聚 类 的 目标 是 在 保 
持 艇 数目 不 变 的 情况 下 提高 艇 的 质量 。 


那么 如 何 对 图 10-2 的 结果 进行 改进 ? 你 可 以 对 生成 的 簇 进 行 后 处 理 ， 一 
种 方法 是 将 具有 最 大 SSE 值 的 簇 划 分 成 两 个 族 。 具 体 实现 时 可 以 将 最 大 
簇 包 全 的 点 过 滤 出 来 并 在 这 些 点 上 运行 k 均 值 算法 ， 其 中 的 k 2 7 


为 了 保持 簇 总 数 不 变 ， 可 以 将 某 两 个 族 进 行 合 并 。 从 图 10-2 中 很 明显 就 

可 以 看 出 ， 应 该 将 图 下 部 两 个 出 错 的 入 质心 进行 合并 。 可 以 很 容易 对 

v eam alas 但 是 如 打 遇 到 40 维 的 数据 应 该 如 何 去 
T 


有 两 种 可 以 量化 的 办 法 : 合并 最 近 的 质心 ， 或 者 合并 两 个 使 得 SSE 增 幅 
最 小 的 质心 。 第 一 种 思路 通过 计算 所 有 质心 之 间 的 距离 ， 然 后 合并 距 
离 最 近 的 两 个 点 来 实现 。 第 二 种 方法 需要 合并 两 个 簇 然 后 计算 总 SSE 
值 。 必 须 在 所 有 可 能 的 两 个 艇 上 重复 上 述 处 理 过 程 ， 直 到 找到 合并 最 
FE E 。 接 下 来 将 讨论 利用 上 述 复 划分 技术 得 到 更 好 的 聚 类 
结 方法。 


10.3 ”二 分 k 均 值 算法 


为 克服 k 均 值 算法 收敛 于 局 部 最 小 值 的 问题 ， 有 人 提出 了 另 一 个 称 为 二 
分 k 均 值 (bisecting K-means) 的 算法 。 该 算法 首先 将 所 有 点 作为 一 个 
复 ， 然 后 将 该 篮 一 分 为 二 。 之 后 选择 其 中 一 个 簇 继续 进行 划分 ， 选 择 
哪 一 个 艇 进行 划分 取决 于 对 其 划分 是 否 可 以 最 大 程度 降低 SSE 的 值 。 上 
述 基 于 SSE 的 划分 过 程 不 断 重 复 ， 直 到 得 到 用 户 指 定 的 复数 目 为 止 。 


二 分 k 均 值 算法 的 伪 代 码 形式 如 下 : 


将 所 有 点 看 成 一 个 篮 


LE 


复数 目 小 于 k 时 


KT ME 


竺 给 定 的 艇 上 面 进行 均值 率 类 (K-2) 


计算 将 该 艇 一 分 为 二 之 后 的 总 误差 


选择 使 得 误差 最 小 的 那个 复 进 行 划分 操作 


另 一 种 做 法 是 选择 SSE 节 大 的 族 进 行 划 分 ， 直 到 复数 目 达到 用 户 指定 的 
数目 为 止 。 这 个 做 法 听 起 来 并 不 难 实现 。 下 面 束 来 看 一 下 该 算法 的 实 
际 效 果 。 打 开 kMeans .py 文件 然后 加 入 下 面 程序 清单 中 的 代码 。 


程序 清单 10-3 ”二 分 K 均 值 聚 类 算法 


def biKmeans(dataSet, k, distMeas-distEclud): 


m = shape(dataSet) [0] 


clusterAssment - mat(zeros((m,2))) 


E— AURIK 


mit 


#0 (以 下 两 行 ) 创 


centroidO = mean(dataSet, axis=0).tolist()[0] 


centList -[centroid0] 


for j in range(m): 


clusterAssment[j,1] = distMeas(mat(centroid0O), dataSet[j,:])**2 


while (len(centList) « k): 


lowestSSE - inf 


for i in range(len(centList)): 


#0 (以 下 两 行 ) 尝试 划分 每 一 簇 


ptsInCurrCluster =dataSet[nonzero(clusterAssment[:,0].A==i)[0],:] 


centroidMat, splitClustAss = kMeans(ptsInCurrCluster, 2 , distMeas) 


sseSplit - sum(splitClustAss[:,1]) 


sseNotSplit - sum(clusterAssment[nonzero(clusterAssment[:,0].A!-i) 


[0],1]) 


print "sseSplit, and notSplit: ",sseSplit,sseNotSplit 


if (sseSplit + sseNotSplit) < lowestSSE: 


bestCentToSplit - i 


bestNewCents - centroidMat 


bestClustAss - splitClustAss.copy() 


lowestSSE = sseSplit + sseNotSplit 


qm 


49 (以 下 两 行 ) PRMD ACL 


bestClustAss[nonzero(bestClustAss[:,0].A == 1)[0],0] =len(centList) 
bestClustAss[nonzero(bestClustAss[:,0].A == 0)[0],0] =bestCentToSplit 
print 'the bestCentToSplit is: ',bestCentToSplit 

print 'the len of bestClustAss is: ', len(bestClustAss) 
centList[bestCentToSplit] = bestNewCents[O, :] 
centList.append(bestNewCents[1, :]) 


clusterAssment[nonzero(clusterAssment[:,0].A -- bestCentToSplit) 


[0], :]» bestClustAss 


return mat(centList), clusterAssment 


上 上述 程 序 中 的 函数 与 程序 清单 10-2 中 函数 kmeans( ) 的 参数 相同 。 在 给 
定数 据 集 、 所 期 望 的 复数 目 和 距离 计算 方法 的 条 件 下 ， 函 数 返 回 聚 类 
结果 。 同 kMeans() 一 样 ， 用 户 可 以 改变 所 使 用 的 距离 计算 方法 。 


该 函数 首先 创建 一 个 矩阵 来 存储 数据 集中 每 个 点 的 簇 分 配 结 采 及 平方 
误 半 ,然后 计算 整个 数据 集 的 质心 ， 并 使 用 一 个 列表 来 保留 所 有 的 质 
心 @。 得 到 上 述 质心 之 后 ， 可 以 裔 历数 据 集中 所 有 点 来 计算 每 个 点 到 
质心 的 误差 值 。 这 些 误差 值 将 会 在 后 面 用 到 。 


接 下 来 程序 进入 while 循环 ， 该 循环 会 不 停 对 艇 进行 划分 ， 直 到 得 到 想 
要 的 复数 目 为 止 。 可 以 通过 考察 篮 列 表 中 的 值 来 获得 当前 复 的 数目 。 
然后 遍历 所 有 的 簇 来 决定 最 佳 的 艇 进行 划分 。 为 此 需要 比较 划分 前 后 
的 SSE。 一 开始 将 最 小 SSE 置 设 为 无 穷 大 ， 然 后 过 有 历 篮 列 表 centList 中 
的 每 一 个 复 。 对 每 个 自 ， 将 该 复 中 的 所 有 点 看 成 一 个 小 的 数据 集 
ptsInCurrCluster ? 将 ptsIncurrcluster 输入 到 函数 kMeans() 中 进行 
ARR (K = 2) 。k 均 值 算法 会 生成 两 个 质心 GR). RIZR HET A 
的 误差 值 @@。 这 些 误 差 与 剩余 数据 集 的 误差 之 和 作为 本 次 划分 的 误 
差 。 如 有 果 该 划分 的 SSE 值 最 小 ， 则 本 次 划分 被 保 仓 。 一 旦 决定 了 要 划分 
的 复 ， 接 下 来 就 要 实际 执行 划分 操作 。 划 分 操作 很 容易 ， 只 需要 将 要 
划分 的 篮 中 所 有 点 的 篮 分 配 结果 进行 修改 即 可 。 当 使 用 kMeans() 函数 
并 且 指 定 复数 为 2 时 ， 会 得 到 两 个 编号 分 别 为 0 和 1 的 结果 簇 。 需 要 将 这 
些 复 编号 修改 为 划分 篮 及 新 加 簇 的 编号 ， 该 过 程 可 以 通过 两 个 数组 过 
滤器 来 完成 @。 最 后 ， 新 的 簇 分 配 结果 被 更 新 ， 新 的 质心 会 被 添加 到 


centList 中 


当 while 循环 结束 时 ， 同 kMeans( ) 函数 一 样 ， 函 数 返 回 质心 列表 与 簇 分 
配 结果 。 


下 面 看 一 下 实际 运行 效果 。 将 程序 清单 10-3 中 的 代码 添加 a 到 文件 
kMeans .py 并 保存 ， 然 后 在 Python 提 示人 符 下 输入 : 


>>> reload(kMeans) 


«module 'kMeans' from 'kMeans.py'> 


可 以 在 最 早 的 数据 集 上 运行 上 述 过 程 ， 也 可 以 通过 如 下 命令 来 导入 图 
10-2 中 那个 “ 较 难 ”的 数据 集 : 


>>> datMat3-mat(kMeans.loadDataSet('testSet2.txt')) 


= 4 ye 7 AN 全 人 
要 运行 函数 bikmeans() ， 输 入 如 下 命令 : 
>>> centList,myNewAssments=kMeans.bikmeans(datMat3, 3) 


sseSplit, and notSplit: 491.233299302 0.0 


the bestCentToSplit is: 0 

the len of bestClustAss is: 60 

sseSplit, and notSplit: 75.5010709203 35.9286648164 
sseSplit, and notSplit: 21.40716341 455.304634485 
the bestCentToSplit is: 0 


the len of bestClustAss is: 40 


\ be 
现在 看 看 质心 结 
>>> centList 
[matrix([[-3.05126255, 3.2361123 ]]), matrix([[-0.28226155, -2.4449763 ]]), 


matrix([[ 3.1084241, 3.0396009]])] 


ERKA NTER, RRA AS UIN. TUR ASH JkMeans() 
函数 偶尔 会 陷入 局 部 最 小 值 。 图 10-3 给 出 了 数据 集 及 运行 bikmeans() 后 
的 的 质心 的 示意 图 。 


-6 -4 -2 0 2 4 6 


图 10-3 ”运行 二 分 K 均 值 算 法 后 的 簇 分 配 示意 图 ， 该 算法 总 是 产生 较 好 
的 聚 类 结果 


前 面 已 经 运行 了 二 分 K 均 值 算法 ， 下 面 将 该 算法 应 用 于 一 些 真 实 的 数据 
集 上 。 下 一 市 将 利用 地 图 上 的 地 理 位 置 坐 标 进行 聚 类 。 


10.4 示例 : 对 地 图 上 的 点 进行 从 类 


假如 有 这 样 一 种 情况 : 你 的 朋友 Drew 和 希望 你 带 他 去 城 里 庆祝 他 的 生 

日 。 由 于 其 他 一 些 朋 友 也 会 过 来 ， 所 以 需要 你 提供 一 个 大 家 都 可 行 的 
计划 。Drew 给 了 你 一 些 他 希望 去 的 地 址 。 这 个 地 址 列表 很 长 ， 有 70 个 
位 置 。 我 把 这 个 列表 保存 在 文件 portland-clubs.txt 中 ， 该 文件 和 源 
代码 一 起 打包 。 这 些 地 址 其 实 都 在 俄 勒 内 州 的 波 特 兰 地 区 。 


也 就 是 说 ， 一 晚上 要 去 70 个 地 方 ! 你 要 决定 一 个 将 这 些 地 方 进行 聚 类 
的 最 佳 集 略 ， 这 样 束 可 以 安排 交通 工具 抵达 这 些 簇 的 质心 ， 然 后 步行 
到 每 个 和 族 内 地 址 。Drew 的 清单 中 虽然 给 出 了 地 址 ， 但 是 并 没有 给 出 这 
些 地 址 之 间 的 距离 远近 信息 。 因 此 ， 你 要 得 到 每 个 地 址 的 纬度 和 经 
度 ， 然 后 对 这 些 地 址 进行 聚 类 以 安排 你 的 行程 。 


示例 : 对 于 地 理 数 据 应 用 二 分 k 均 值 算法 


1. 收集 数据 :使 用 Yahoo! PlaceFinder API 收 集 数据 。 

2. 准备 数据 : 只 保留 经 纬度 信息 。 

5 rad 使 用 Matplotlib 来 构建 一 个 二 维 数 据 图 ， 其 中 包含 艇 与 
4. 训练 算法 : 训练 不 适用 无 监督 学 习 。 

5. 测试 算法 : 使 用 10.4 广 中 的 bikmeans() 函数 。 

6. 使 用 算法 : 最 后 的 输出 是 包含 艇 及 簇 中心 的 地 图 。 


你 需要 一 个 服务 来 将 地 址 转换 为 纬度 和 经 度 。 笠 运 的 是 ， 雅 虎 提 供 了 
这 样 的 服务 。 下 面 将 介绍 Yahoo! PlaceFinder API 的 使 用 方法 。 然 后 ， 对 
给 出 的 地 址 坐标 进行 聚 类 ， 最 后 画 出 所 有 点 以 及 簇 中 心 ， 并 看 看 聚 类 
结果 到 底 如 何 。 


10.4.1 Yahoo! PlaceFinder API 


雅虎 的 牛人 们 已 经 为 我 们 提供 了 一 个 免费 的 地 址 转换 API， 该 API 对 给 
定 的 地 址 返回 该 地 址 对 应 的 纬度 与 经 度 。 访 问 下 面 的 URL 可 以 了 解 更 


Zr: http://developer, yahoo.com/geo/placefinder/guide/ ° 


为 了 使 用 该 服务 ， 需 要 注册 以 获得 一 个 API key。 具 体 地 ， 你 需要 在 
Yahoo! 开 发 者 网 络 (http://developer.yahoo.com/ ) 中 进行 注册 。 创 建 一 
个 桌面 应 用 后 会 获得 一 个 appid。 需 要 appid 来 使 用 geocoder。 一 个 
geocoder 接 受 给 定 地 址 ， 然 后 返回 该 地 址 对 应 的 经 纬度 。 下 面 的 代码 将 
ee 。 打开 kMeans.py 文件 ， 然 后 加 入 下 列 代 


程序 清单 10-4 Yahoo! PlaceFinder API 
import urllib 
import json 
def geoGrab(stAddress, city): 


apiStem - 'http://where.yahooapis.com/geocode?' 


params = (3 


pn 


#0 将 返回 类 型 设 为 JSON 


M 
a 


params['flags'] 


params['appid'] = 'ppp68Nat' 


params['location'] = '%s %s' 96 (stAddress, city) 


url params - urllib.urlencode(params) 


yahooApi = apiStem + url params 


#@ 打印 输出 的 的 URL 


print yahooApi 


c-urllib.urlopen(yahooApi) 


return json.loads(c.read()) 


from time import sleep 


def massPlaceFind(fileName): 


fw = open('places.txt', 'w') 


for line in open(fileName).readlines(): 


line - line.strip() 


lineArr line.split('\t') 


retDict = geoGrab(lineArr[1], lineArr[2]) 


if retDict['ResultSet']['Error'] == 0: 
lat = float(retDict['ResultSet']['Results'][0]['latitude']) 
lng = float(retDict['ResultSet']['Results'][0]['longitude']) 
print "%s\t%F\t%F" 96 (lineArr[0O], lat, lng) 
fw.write('%s\t%f\t%f\n' % (line, lat, lng)) 

else: print "error fetching" 

sleep(1) 


fw.close() 


EüfSFEREWHRENEX: geoGrab() SmassPlaceFind() ° WAY 
geoGrab() 从 Yahoo 返 回 一 个 字典 ，massPlaceFind() 将 所 有 这 些 封装 起 
来 并 且 将 相关 信息 保存 到 文件 中 。 


在 函数 geoGrab() 中 ， 首 先 为 Yahoo API 设 置 apistem ， 然 后 创建 一 个 字 
典 。 你 可 以 为 字典 设置 不 同 值 ， 包 括 flags = 3 ， 以 便 返 回 JSON 格 式 
的 结果 @。 (不 用 担心 你 不 熟悉 JSON， 它 是 一 种 用 于 序列 化 数组 和 字 
典 的 文件 格式 ， 本 书 不 会 看 到 任何 JSON。JSON 是 JavaScript Object 
Notation 的 缩写 ， 有 兴趣 的 读者 可 以 在 www.json.org 找 到 更 多 信息 。) 
接 下 来 使 用 urllib 的 urlencode() 函数 将 创建 的 字典 转换 为 可 以 通过 
URL 进 行 传递 的 字符 串 格 式 。 最 后 ， 打 开 URL 读 取 返 回 值 。 由 于 返回 
值 是 JSON 格 式 的 ， 所 以 可 以 使 用 JSON 的 Python 模块 来 将 其 解码 为 一 个 
字典 。 一 旦 返回 了 解码 后 的 字典 ， 也 束 意 味 着 你 成 功 地 对 一 个 地 址 进 
行 了 地 理 编码 e 


程序 清单 10-4 中 的 第 二 个 函数 是 massPlaceFind() e 该 函数 打开 一 个 tab 
分 隔 的 文本 文件 ， 获 取 第 2 列 和 第 3 列 结果 。 这 些 值 被 输入 到 函数 
geoGrab() 中 ， 然 后 需要 检查 geo6rab( ) 的 输出 字典 判断 有 没有 错误 。 
如 果 没 有 错误 ， 就 可 以 从 字典 中 读 取 经 纬度 。 这 些 值 被 添加 到 原来 对 
应 的 行 上 ， 同 时 写 到 一 个 新 的 文件 中 。 如 果 有 错误 ， 就 不 需要 去 抽取 


纬度 和 经 度 。 最 后 ， 调用 sleep() 函数 将 massPlaceFind( ) 函数 延迟 1 
秒 。 这 样 做 是 为 了 确保 不 要 在 短 时 间 内 过 于 频繁 地 调用 API。 如 有 果 频 繁 
调用 ， 那 么 你 的 请 求 可 能 会 被 封 掉 ， 所 以 将 nassplaceFind() 函数 的 调 
用 延迟 一 下 比较 好 。 


保存 kMeans.py 文件 后 ， 在 Python 近 示人 符 下 输入 : 


>>> reload(kMeans) 


«module 'kMeans' from 'kMeans.py'> 


要 党 试 geo6rab ， 输 入 街道 地 址 和 城市 的 字符 串 ， 比 如 : 
>>> geoResults=kMeans.geoGrab('1 VA Center', 'Augusta, ME') 
http://where.yahooapis.com/ 


geocode?flags=J&location=1+VA+Center+Augusta%2C+ME&appid=ppp68N6k 


实际 使 用 的 URL 会 被 打印 出 来 ， 通 过 这 些 URL， 用 户 可 以 看 到 具体 发 
生 了 什么 。 如 果 并 不 想 看 到 URL， 那 么 将 程序 清单 10-4 中 的 print 语句 
注释 掉 也 没关系 。 下 面 看 一 下 返回 结果 ， 应 该 是 一 个 很 大 的 字典 。 


>>> geoResults 


{u'ResultSet': {u'Locale': u'us US', u'ErrorMessage': u'No error',u'Results': 
[{u'neighborhood': u'', u'house': u'1', u'county': u'Kennebec County', u'street' 
: u'Center St', u'radius': 500, u'quality': 85, u'unit':u'', u'city': u'Augusta' 


, u'countrycode': u'US', u'woeid': 12759521, 


u'xstreet': u'', u'line4': u'United States', u'line3': u'', u'line2':u'Augusta, 
ME 04330- 

6410', u'linei': u'1 Center St', u'state': u'Maine',u'latitude': u'44.307661', u 
'hash': u'B8BE9FBEE764CA49', u'unittype': u'',u'offsetlat': u'44.307656', u'stat 
ecode': u'ME',u'postal': u'04330- 


6410',u'name': u'', u'uzip': u'04330', u'country': u'United States',u'longitude' 


u'-69.776608', u'countycode': u'', u'offsetlon': u'-69.776528',u'woetype': 11) 


], u'version': u'1.0', u'Error': 0, u'Found': 1,u'Quality': 87}} 


上 面 给 出 的 是 一 部 只 包含 键 Resultset 的 字典 ， 该 字典 又 包含 分 别 以 
Locale ^ aM m ` Results ^ version ^ Error ^ Found 和 


Quality 为 键 的 其 他 字典 。 
读者 可 以 看 一 下 所 有 这 些 键 的 内 容 ， 不 过 我 们 主要 感 兴趣 的 还 是 Error 


和 和 Results ° 


Error 键 值 给 出 的 是 错误 编码 。0 意 味 着 没有 错误 ， 其 他 任何 值 都 代表 
没有 获得 要 找 的 地 址 。 可 以 输入 下 面 内 容 以 获得 错 BUD. 


>>> geoResults['ResultSet']['Error'] 


现在 看 一 下 纬度 和 经 度 ， 可 以 输入 如 下 命令 来 实现 : 
>>> geoResults['ResultSet']['Results'][0]['longitude'] 
u'-69.776608' 
>>> geoResults['ResultSet']['Results'][0]['latitude'] 


u'44.307661' 


ETA EB Aah FFF ER ee. 
PEE 竺 多 行 上 的 运行 效果 ， 输 入 命令 执行 程序 请 单 10-4 中 的 第 二 


>>> kMeans.massPlaceFind('portlandClubs.txt') 


Dolphin II 45.486502 -122.788346 


Magic Garden 45.524692 -122.674466 
Mary's Club 45.535101 -122.667390 


Montego's 45.504448 -122.500034 


这 会 在 你 的 工作 目录 下 生成 一 个 称 为 places .txt 的 文本 文件 。 接 下 来 
站 


10.4.2 ”对 地 理 坐 标 进行 聚 类 


现在 我 们 有 一 个 包含 格式 化 地 理 坐 标的 列表 ， 搂 下 来 可 以 对 这 些 俱 乐 
部 进行 聚 类 。 在 此 过 程 中 使 用 Yahoo! PlaceFinder API 来 获得 每 个 点 的 纬 
度 和 经 度 。 下 面 需要 使 用 这 些 信息 来 计算 数据 点 与 篮 质 心 的 距离 。 


这 个 例子 中 要 聚 类 的 俱乐部 给 出 的 信息 为 经 度 和 维度 ， 但 这 些 信息 对 
于 距离 计算 还 不 够 。 在 北极 附近 每 走 几 米 的 经 度 变化 可 能 达到 数 10 
度 ; 而 在 赤道 附近 走 相 同 的 距离 ， 带 来 的 经 度 变 化 可 能 只 是 零点 儿 。 
可 以 使 用 球面 余弦 定理 来 计算 两 个 经 纬度 之 间 的 距离 。 为 实现 距离 计 
算 并 将 聚 类 后 的 俱乐部 标识 在 地 图 上 ， 打 开 kMeans.py 文件 ， 添 加 下 面 
程序 清单 中 的 代码 。 


程序 清单 10-5 ”球面 距离 计算 及 簇 绘 图 函数 


def distSLC(vecA, vecB): 


a = sin(vecA[0,1]*pi/180) * sin(vecB[0,1]*pi/180) 


b = cos(vecA[0,1]*pi/180) * cos(vecB[0,1]*pi/180) * cos(pi * (vecB[0,90]- 
vecA[0,0]) /180) 


return arccos(a + b)*6371.0 


import matplotlib 


import matplotlib.pyplot as plt 


def clusterClubs(numClust=5): 


datList - [] 


for line in open('places.txt').readlines(): 


lineArr = line.split('\t') 


datList.append([float(lineArr[4]), float(lineArr[3])]) 


datMat - mat(datList) 


myCentroids, clustAssing = biKmeans(datMat, numClust, distMeas=distSLC) 


fig = plt.figure() 


rect=[0.1,0.1,0.8,0.8] 


scatterMarkers=['s', 'o', '^', '8', 'p', 'd', 'v', 'h', '»', '«'] 


axprops = dict(xticks-[], yticks=[]) 


axO-fig.add axes(rect, label='ax0', **axprops) 


imgP - plt.imread('Portland.png') 


#@ ETA ROEM 


ax0.imshow(imgP) 


axi-fig.add axes(rect, label-'axi', frameon=False) 


for i in range(numClust): 
ptsInCurrCluster = datMat[nonzero(clustAssing[:,0].A==i)[0],:] 
markerStyle = scatterMarkers[i % len(scatterMarkers)] 


axi.scatter(ptsInCurrCluster[:,0].flatten().A[0], ptsInCurrCluster[:,1].f 
latten().A[0],markerzmarkerStyle, s-90) 


axi.scatter(myCentroids[:,0].flatten().A[0], myCentroids[:,1].flatten().A[0], 


marker='+!', s=300) 


plt.show() 


上 壕 程 序 清单 包含 两 个 函数 。 第 一 个 琅 数 distsLC() 返回 地 球 表面 两 点 
之 间 的 距离 。 第 二 个 函数 clusterclubs() 将 文本 文件 中 的 俱乐部 进行 
聚 类 并 画 出 结果 。 


函数 distsLc() 返回 地 球 表面 两 点 间 的 距离 ， 单 位 是 英里 。 给 定 两 个 点 

的 经 纬度 ， 可 以 使 用 球面 余弦 定理 来 计算 两 点 的 距离 。 这 里 的 纬度 和 

经 度 用 角度 作为 单位 ， 但 是 sin() 以 及 cos() 以 弧度 为 输入 。 可 以 将 角 

以 180 然 后 再 乘 以 圆周 率 pi 转 换 为 弧度 。 导 入 NumPy 的 时 候 就 会 导 
pl ° 


第 二 个 函数 clusterclubs() 只 有 一 个 参数 ， 即 所 希望 得 到 的 复数 目 。 
该 函数 将 文本 文件 的 解析 、 聚 类 以 及 画图 都 封装 在 一 起 ， 首 先 创 建 一 
个 空 列表 ， 然 后 打开 places.txt 文件 获取 第 4 列 和 第 5 列 ， 这 两 列 分 别 
对 应 纬度 和 经 度 。 基 于 这 些 经 纬度 对 的 列表 创建 一 个 矩阵 。 接 下 来 在 
这 些 数据 点 上 运行 bikmeans() 并 使 用 distsLc() 函数 作为 聚 类 中 使 用 的 
距离 计算 方法 。 最 后 将 簇 以 及 艇 质心 男 在 图 上 。 


为 了 画 出 这 些 复 ， 首 先 创 建 一 幅 图 和 一 个 矩形 ， 然 后 使 用 该 矩形 来 决 
定 绘制 图 的 哪 一 部 分 。 接 下 来 构建 一 个 标记 形状 的 列表 用 于 绘制 散 点 
图 。 后 边 会 使 用 唯一 的 标记 来 标识 每 个 和 能。 下 一 步 使 用 imread() 函数 
基于 一 幅 图 像 来 创建 矩阵 @， 然 后 使 用 imshow( ) 绘制 该 矩阵 。 接 下 

来 ， 在 同一 幅 图 上 绘制 一 张 新 的 图 ， 这 人 允许 你 使 用 两 套 坐 标 系统 并 且 
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标记 类 型 从 前 面 创 建 的 scatterMarkers 列表 中 得 到 。 使 用 索引 i % 
len(scatterMarkers) 来 选择 标记 形状 ， 这 意味 着 当 有 更 多 艇 时 ， 可 以 
循环 使 用 这 些 标 记 。 最 后 使 用 十 字 标 记 来 表示 艇 中心 并 在 图 中 显示 。 


下 面 看 一 下 实际 效果 ， 保 存 kMeans .py 并 在 Python 提示 符 下 输入 如 下 命 


^ 


>>> reload(kMeans) 


«module 'kMeans' from 'kMeans.py'> 


>>> kMeans.clusterClubs(5) 


sseSplit, and notSplit: 3073.83037149 0.0 


the bestCentToSplit is: 0 


sseSplit, and notSplit: 307.687209245 1118.08909015 


the bestCentToSplit is: 3 


the len of bestClustAss is: 25 


执行 上 面 的 命令 后 ， 会 看 到 与 图 10-4 类 似 的 一 个 图 。 
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图 10-4 对 俄 勒 由 州 波 特 兰 市 夜生活 娱乐 地 点 的 聚 类 结果 


可 以 沦 试 输入 不 同 复 数目 得 到 程序 运行 的 效果 。 什 么 数目 比较 好 呢 ? 
BE n] DASS BIRT IRIS 。 


10.5 ”本章 小 结 


聚 类 坪 一 种 无 监督 的 学 习 方法 。 所 谓 无 监督 学 习 是 指 事先 并 不 知道 要 
寻找 的 内 容 ， 即 没有 目标 变量 。 育 类 将 数据 点 归 到 多 个 族 中 ， 其 中 相 
似 数 据点 处 于 同一 族 ， 而 不 相似 数据 点 处 于 不 同族 中 。 聚 类 中 可 以 使 
用 多 种 不 同 的 方法 来 计算 相似 度 。 


一 种 广 沁 使 用 的 聚 类 算法 是 k 均 值 算法 ， 其 中 k 是 用 户 指 定 的 要 创建 的 
簇 的 数目 。k 均 值 聚 类 算法 以 k 个 随机 质心 开始 。 算 法 会 计算 每 个 点 到 
质心 的 距离 。 每 个 点 会 被 分 配 到 距 其 最 近 的 艇 质心， 然后 紧 接 着 基于 
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了 获得 更 好 的 聚 类 效果 ， 可 以 使 用 男 一 种 称 为 二 分 k 均 值 的 聚 类 算法 。 
二 分 k 均 值 算 法 首先 将 所 有 点 作为 一 个 艇 ， 然 后 使 用 k 均 值 算法 (k= 

2) 对 其 划分 。 下 一 次 迭代 时 ， 选 择 有 最 大 误差 的 艇 进行 划分 。 该 过 程 
HA Elk 个 艇 创建 成 功 为 止 。 二 分 k 均 值 的 率 类 效果 要 好 于 k 均 值 算 
IR 


k 均 值 算法 以 及 变形 的 k 均 值 算法 并 非 仅 有 的 聚 类 算法 ， 必 外 称 为 层次 
i NS 泛 使 用 。 下 一 章 将 介绍 在 数据 集中 查找 关联 规则 的 
Apriori 算 法 。 


E 使 用 Apriori 算 法 进行 关联 分 


本 章 内 容 


。 Apriori 算 法 

。 频繁 项 集 生 成 

。 关联 规则 生成 

。 投票 中 的 关联 规则 发 现 


在 去 杂货 店 闫 东西 的 过 程 ， 实 际 包 售 了 许多 机 瑚 学 习 的 当前 及 未 来 应 
用 ， 这 包括 物品 的 展示 方式 、 购 物 之 后 优惠 券 的 提供 以 及 用 户 忠 诚 度 
计划 ， 等 等 。 它 们 都 离 不 开 对 大 量 数据 的 分 析 。 SS BATUR EE E 
oe 所 以 他 们 必然 会 利用 各 种 技术 来 达到 这 一 目 


忠诚 度 计 划 是 指 顾客 使 用 会 员 卡 可 以 获得 一 定 的 折扣 ， 利 用 这 种 计 
划 ， 商 店 可 以 了 解 顾客 所 购买 的 商品 。 即 使 顾客 不 使 用 会 员 卡 ， 商 店 
也 会 查看 顾客 购买 商品 所 使 用 的 信用 卡 记录 。 如 有 果 顾 客 不 使 用 信用 卡 
而 使 用 现金 付款 ， 商 店 则 可 以 查看 顾客 一 起 购买 的 商品 〈 如 果 想 知道 
商店 所 使 用 的 更 多 技术 ， 请 参考 Stephen Baker 写 的 The Numerati 一 
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为 。 这 种 从 数据 海洋 中 抽取 的 知识 可 以 用 于 商品 定价 、 市 场 促销 、 存 
货 管理 等 环节 。 从 大 规模 数据 集中 寻找 物品 间 的 隐 含 关系 被 称 作 关联 
分 析 (association analysis) 或 者 关联 规则 学 习 (association rule 
learning) 。 这 里 的 主要 问题 在 于 ， 寻 找 物品 的 不 同 组 合 是 一 项 十 分 耗 
时 的 任务 ， 所 需 的 计算 代价 很 高 ， 蛮 力 搜索 方法 并 不 能 解决 这 个 问 
题 ， 所 以 需要 用 更 智能 的 方法 在 合理 的 时 间 范 围 内 找到 频繁 项 集 。 本 
章 将 介绍 如 何 使 用 Apriori 算 法 来 解决 上 述 问 题 。 

下 面 首先 详细 讨论 关联 分 析 ， 然 后 讨论 Apriori 原 理 ，Apriori 算 法 正 是 
基于 该 原理 得 到 的 。 接 下 来 创建 画 数 频 党 项 集 高 效 发 现 的 函数 ， 然 后 
从 频繁 项 集中 抽取 出 关联 规则 。 本 章 最 后 给 出 两 个 例子 ,一 个 是 从 国 
会 投票 记录 中 抽取 出 关联 规则 ， 另 一 个 是 发 现 毒 蘑 茹 的 共同 特征 。 


11.1 关联 分 析 

Apriori 算 法 

优点 : 易 编 码 实现 

缺点 : 在 大 数据 集 上 可 能 较 慢 

适用 数据 类 型 : 数值 型 或 者 标 称 型 数据 
关联 分 析 是 一 种 在 大 规模 数据 集中 寻找 有 趣 关 系 的 任务 。 这 些 关 系 可 
以 有 两 种 形式 ， 频 繁 项 集 或 者 关联 规则 。 频 繁 项 集 (frequent item 
sets) 是 经 常 出 现在 一 块 的 物品 的 集合 ， 关 联 规则 (association rules) 


暗示 两 种 物品 之 间 可 能 存在 很 强 的 天 系 。 下 面 会 用 一 个 例子 来 说 明 这 
两 种 概念 。 图 11-1 给 出 了 某 个 杂货 店 的 交易 清单 。 
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图 11-1 一 个 来 目 Hole Foods 天 然 食品 店 的 简单 交易 清单 


频 和 党 项 集 是 指 那些 经 钊 出 现在 一 起 的 物品 集合 ， 独 11-1 中 的 集合 { 葡 欧 
酒 ， 尿 布 , 豆奶 } 束 是 频繁 项 集 的 一 个 例 了 于 (回想 一 下 ， 人 和 集合 是 由 一 对 
大 括号 “{ }” 来 表示 的 ) 。 从 下 面 的 数据 集中 也 可 以 找到 诸如 尿布 9108] 
萄 酒 的 天 联 规则 。 这 意味 着 如 有 果 有 人 买 了 尿布 ， 那 么 他 很 可 能 也 会 买 
衔 移 酒 。 使 用 频 烷 项 集 和 关联 规划， 商家 可 以 更 好 地 理解 他 们 的 顾 
客 。 尽 管 大 部 分 关联 规则 分 析 的 实例 来 目 零售 业 ， 但 该 技术 同样 可 以 
用 于 其 他 行业 ， 比 如 网 站 流量 分 析 以 及 医药 行业 。 


尿布 与 啤酒 ? 


关联 分 析 中 最 有 名 的 例子 是 “尿布 与 啤酒 ”。 据 报道 ， 美 国 中 西部 
的 一 家 连锁 店 发 现 ， 男 人 们 会 在 周 四 购买 尿布 和 啤酒 。 这 样 商店 
实际 上 可 以 将 尿布 与 啤酒 放 在 一 块 ， 并 确保 在 周 四 全 价 销售 从 而 
获 利 。 当 然 ， 这 家 商店 并 没有 这 么 做 "。 


* DSS News, “Ask Dan! What is the true story about data mining, beer and diapers?” http://www.dssresources.com/newsletters/66.php, retrieved March 28, 2011. 


应 该 如 何 定义 这 些 有 趣 的 关系 ? 谁 来 定义 什么 是 有 趣 ? 当 寻找 频繁 项 
EN, S (frequent) 的 定义 是 什么 ? 有 许多 概念 可 以 解答 上 壕 问 
题 ， 不 过 其 中 最 重要 的 是 支持 度 和 可 信和 度 。 


一 个 项 集 的 支持 度 (support) 被 定义 为 数据 集 包 含 该 项 集 的 记录 比 

例 。 从 图 11-1 中 可 以 得 到 ，{ 豆 奶 } 的 文 持 度 为 45。 而 在 5 条 交易 记录 中 
有 3 条 包含 {豆奶 ， 尿 布 } ， 因 此 {豆奶 ， 尿 布 } 的 文 持 度 为 5。 文 持 度 

古 针对 项 集 来 说 的 ， 因 此 可 以 定义 一 个 最 小 支持 度 ， 而 只 保留 满足 最 

小 支持 度 的 项 集 。 


可 信 度 或 置信 度 (confidence) 是 针对 一 条 诸如 {尿布 } = US AS) 的 
关联 规则 来 定义 的 。 这 条 规则 的 可 信和 度 被 定义 为 “支持 度 ({ 尿 布 , 葡萄 
酒 })/ 支 持 度 ({ 尿 布 ))”。 从 图 11-1 中 可 以 看 到 ， 由 于 {尿布 , BJ 
支持 度 为 3/5， 尿 布 的 支持 度 为 45， 所 以 “尿布 = BB” 的 可 信和 度 为 
3/4=0.75。 这 意味 着 对 于 包含 “尿布 ?的 所 有 记录 ， 我 们 的 规则 对 其 中 
759% 的 记录 都 适用 。 


文 持 度 和 可 信 度 是 用 来 量化 关联 分 析 是 否 成 功 的 方法 。 假 设想 找到 文 
持 度 大 于 0.8 的 所 有 项 集 ， 应 该 如 何 去 做 ? 一 个 办 法 是 生成 一 个 物品 所 


有 可 能 组 合 的 清单 ， 然 后 对 每 一 种 组 合 统计 它 出 现 的 频繁 程度 ， 但 当 
物品 成 十 上 万 时 ， 上 述 做 法 非常 非常 慢 。 下 一 记 会 详细 分 析 这 种 情况 
并 讨论 Apriori 原 理 ， 该 原理 会 减少 关联 规则 学 习 时 所 需 的 计算 量 。 


11.2 ”Apriori 原 理 


假设 我 们 在 经 营 一 家 商品 种 类 并 不 多 的 杂货 店 ， 我 们 对 那些 经 稼 在 一 
起 被 购买 的 商品 非常 感 兴趣 。 我 们 只 有 4 种 商品 : 商品 0， 商 品 1， 商 品 
2 和 商品 3。 那 么 所 有 可 能 被 一 起 购买 的 商品 组 合 都 有 哪些 ? 这 些 丙 品 
组 合 可 能 只 有 一 种 商品 ， 比 如 商品 0， 也 可 能 包括 两 种 、 三 种 或 者 所 有 
四 种 商品 。 我 们 并 不 关心 菜 人 天 了 两 件 商品 0 以 及 四 件 商品 2 的 情况 ， 
我 们 只 关心 他 购买 了 一 种 或 多 种 商品 。 


Apriori 算 法 的 一 般 过 程 


1. 收集 数据 : 使 用 任意 方法 。 

2. 准备 数据 : 任何 数据 类 型 都 可 以 ， 因 为 我 们 只 保存 集合 。 
3. 分 析 数 据 : 使 用 任意 方法 。 

4. 训练 算法 : 使 用 Apriori 算 法 来 找到 频繁 项 集 。 

5. 测试 算法 : 不 需要 测试 过 程 。 

6. 使 用 算法 : 用 于 发 现 频 党 项 集 以 及 物品 之 间 的 关联 规则 。 


图 11-2 显 示 了 物品 之 间 所 有 可 能 的 组 合 。 为 了 让 该 图 更 容易 届 ， 图 中 使 
用 物品 的 编号 0 来 取代 物品 0 本 映 。 为 外 ， 图 中 从 上 往 下 的 第 一 个 集合 
苹 @， 表 示 空 集 或 不 包含 任何 物品 的 集合 。 物 品 集合 之 间 的 连 线 表明 两 
个 或 者 更 多 集合 可 以 组 合 形成 一 个 更 大 的 集合 。 


图 11-2 集合 {0,1,2,3} 中 所 有 可 能 的 项 集 组 合 


前 面 说 过 ， 我 们 的 目标 是 找到 经 党 在 一 起 购买 的 物品 集合 。 而 在 11.17 
中 ， 我 们 使 用 集合 的 支持 度 来 度量 其 出 现 的 频率 。 一 个 集合 的 支持 度 
征 指 有 多 少 比例 的 交易 记录 包含 该 集合 。 如 何 对 一 个 给 定 的 集合 ， 比 
如 {0,3}， 来 计算 其 支持 度 ? 我 们 遍历 每 条 记录 并 检查 该 记录 包含 0 和 
3， 如 果 记 杂 确 实 同时 包含 这 两 项 ， 那 么 避 ® 增 加 总 计数 值 。 在 扫描 完 所 
有 数据 之 后 ， 使 用 统计 得 到 的 总 数 除 以 总 的 交易 记录 数 ， 就 可 以 得 到 


支持 度 。 上 述 过 程 和 结果 只 是 针对 单个 集合 {0,3}。 要 获得 每 种 可 能 集 
合 的 支持 度 就 需要 多 次 重复 上 述 过 程 。 我 们 可 以 数 一 下 图 11-2 中 的 集合 
数目 ， 会 发 现 即 使 对 于 仅 有 4 种 物品 的 集合 ， 也 需要 遍历 数据 15 次 。 而 
随 着 物品 数目 的 增加 侦 历 次 数 会 急剧 增长 。 对 于 包含 N 种 物品 的 数据 集 
共有 2*-1 种 项 集 组 合 。 事 实 上 ， 出 售 10 000 或 更 多 种 物品 的 商店 并 不 少 
见 。 即 使 只 出 售 100 种 商品 的 商店 也 会 有 1.26* 10” 种 可 能 的 项 集 组 

合 。 对 于 现代 的 计算 机 而 言 ， 需 要 很 长 的 时 间 才 能 完成 运算 。 


为 了 降低 所 需 的 计算 时 间 ， 研 究 人 员 发 现 一 种 所 谓 的 Apriori 原 理 。 

Apriori 原 理 可 以 帮 有 我 们 减少 可 能 感 兴趣 的 项 集 。Apriori 原 理 是 说 如 果 

某 个 项 集 是 频 党 的 ， 那 么 它 的 所 有 子 集 也 是 频 党 的 。 对 于 图 11-2 给 出 的 

例子 ， 这 意味 着 如 果 {0,1} 是 频繁 的 ， 那 么 {0}、{1} 也 一 定 是 频繁 的 。 

这 个 原理 直观 上 并 没有 什么 帮助 ， 但 是 如 果 反 过 来 看 就 有 用 了 ， 也 就 

oma 那么 它 的 所 有 超 集 也 是 非 频繁 的 (如 
11-3 上 所 不 ) ° 


A priori 


A priori 在 拉丁 语 中 指 “ 来 自 以 前 ”。 当 定义 问题 时 ， 通 常会 使 用 先 
验 知识 或 者 假设 ， 这 被 称 作 “ 一 个 先 验 ”(a priori)。 在 贝 叶 斯 统计 
中 ， 使 用 先 验 知识 作为 条 件 进行 推断 也 很 常见 。 先 验 知识 可 能 来 
自 领 域 知 识 、 先 前 的 一 些 测量 结果 ， 等 等 。 


图 11-3 ”图 中 给 出 了 所 有 可 能 的 项 集 ， 其 中 非 频 繁 项 集 用 灰色 表示 。 由 
于 集合 {2,3} 是 非 频繁 的 ， 因 此 {0,2,3}、{1,2,3} 和 {0,1,2,3} 也 是 非 频 繁 
的 ， 它 们 的 支持 度 根本 不 需要 计算 


在 图 11-3 中 ， 已 知 阴影 项 集 {2,3} 是 非 频 繁 的 。 利 用 这 个 知识 ， 我 们 就 

知道 项 集 {0,2,3}，{1,2,3} 以 及 {0,1,2,3} 也 是 非 频 繁 的 。 这 也 就 是 说 ,一 
旦 计算 出 了 {2,3} 的 支持 度 ， 知 道 它 是 非 频繁 的 之 后 ， 就 不 需要 再 计算 

{0,2,3}、{1,2,3} 和 {0,1,2,3} 的 支持 度 ， 因 为 我 们 知道 这 些 集 合 不 会 满足 
我 们 的 要 求 。 使 用 该 原理 就 可 以 避免 项 集 数 目的 指数 增长 ， 从 而 在 合 

理 时 间 内 计算 出 频繁 项 集 。 


下 一 市 将 介绍 基于 Apriori 原 理 的 Apriori 算 法 ， 并 使 用 Python 来 实现 ， 然 
后 将 其 应 用 于 虚拟 商店 Hole Foods 的 数据 集 上 。 


11.3 ”使 用 Apriori 算 法 来 发 现 频繁 集 


11.1 市 提 人 到 ， 关 联 分 析 的 目标 包括 两 项 ， 发 现 频 爱 项 集 和 发 现 天 联 规 
则 。 首 先 需 要 找到 频繁 项 集 ， 然 后 才能 获得 关联 规则 。 本 市 将 只 关注 
于 发 现 频 过 项 集 。 


Apriori 算 法 是 发 现 频繁 项 集 的 一 种 方法 2 Apriori 算 法 的 两 个 输入 参数 
分 别 是 最 小 文 持 度 和 数据 集 。 该 算法 首先 会 生成 所 有 单个 物品 的 项 集 
列表 。 接 着 扫描 交易 记录 来 查看 哪些 项 集 满足 最 小 支持 度 要 求 ， 那 些 
不 满足 最 小 文 持 度 的 集合 会 被 去 掉 。 然 后 ， 对 剩 下 来 的 集合 进行 组 合 
以 生成 包含 两 个 元 素 的 项 集 。 接 下 来 ， 再 重新 扫 摘 交易 记录 ， 去 挥 不 
满足 最 小 支持 度 的 项 集 。 该 过 程 重复 进行 直到 所 有 项 集 都 被 去 掉 。 


11.3.1 ”生成 候选 项 集 
在 使 用 Python 来 对 整个 程序 编码 之 前 ， 需 要 创建 一 些 辅助 画 数 。 下 面 会 


创建 一 个 用 于 构建 初始 集合 的 函数 ， 也 会 创建 一 个 通过 扫描 数据 集 以 
SIX AC OKT SRA NBM ^ BOER TTA AIS ABOU P : 


对 数据 集中 的 每 条 交易 记录 tran 


对 每 个 候选 项 集 can: 


仿 查 一 下 can 是 否 是 tran 的 子 集 : 


如 果 是 ， 则 增加 can 的 计数 值 


对 每 个 候选 项 集 : 


如 果 其 支持 度 不 低 于 最 小 值 ， 则 保留 该 项 集 


返回 所 有 频繁 项 集 列表 


a ce 建立 一 个 apriori.py 文件 并 加 入 下 列 代 


程序 清单 11-1 Apriori RE PHF AA 


def loadDataSet(): 


return [[1, 3, 4], [2, 3, 5], [1, 2, 3, 5], [2, 51] 


def createC1(dataSet): 


for transaction in dataset: 


for item in transaction: 


if not [item] in C1: 


C1.append([item]) 


C1.sort() 


#@ 对 C1 中 每 个 项 构建 一 个 不 变 集合 


return map(frozenset, C1) 


def scanD(D, Ck, minSupport): 


for tid in D: 


for can in Ck: 


if can.issubset(tid): 


if not ssCnt.has key(can): 


else: ssCnt[can] += 1 


numItems = float(len(D)) 


ssCnt[can]=1 


retList - [] 


supportData = {} 


for key in ssCnt: 


#0 计算 所 有 项 集 的 支持 度 


support = ssCnt[key]/numItems 

if support »- minSupport: 
retList.insert(0, key) 

supportData[key] = support 


return retList, supportData 


上 述 程 序 包含 三 个 函数 。 第 一 个 函数 loadpataset() 创建 了 一 个 用 于 测 
试 的 人 简单 数据 集 ， 男 外 两 个 函数 分 别 是 createc1i() 和 scanD() ° 


不 言 自 名 ， 了 范 数 createc1( ) 将 构建 集合 c1 9 ca 是 大 小 为 1 的 所 有 候选 
项 集 的 集合 。Apriori 算 法 首先 构建 集合 c1 ， 然 后 扫描 数据 集 来 判断 这 
些 只 有 一 个 元 素 的 项 集 是 否 满 足 最 小 支持 度 的 要 求 。 那 些 满足 最 低 要 
求 的 项 集 构成 集合 L1。 而 L1 中 的 元 素 相互 组 合 构 成 c2 , c2 再 进一步 过 
滤 变 为 L2。 到 这 里 ， 我 想 读 者 应 该 明白 了 该 算法 的 主要 思路 。 


因此 算法 需要 一 个 函数 createc1() 来 构建 第 一 个 候选 项 集 的 列表 c1 。 
由 于 算法 一 开始 是 从 输入 数据 中 提取 候选 项 集 列表 ， 所 以 这 里 需要 一 
个 特殊 的 函数 来 处 理 ， 而 后 续 的 项 集 列表 则 是 按 一 定 的 格式 存放 的 。 
这 里 使 用 的 格式 束 是 Python 中 的 frozenset 类 型 。frozenset 是 指 和 被 “六 

冻 ” 的 集合 ， 就 是 说 它们 是 不 可 改变 的 ， 即 用 户 不 能 修改 它们 。 这 里 必 
须要 使 用 frozenset 而 不 是 set 类 型 ， 因 为 之 后 必须 要 将 这 些 集合 作为 字典 
键 值 使 用 ， 使 用 frozenset 可 以 实现 这 一 点 ， 而 set 却 做 不 到 。 


首先 创建 一 个 空 列 表 c1 ， 它 用 来 存储 所 有 不 重复 的 项 值 。 接 下 来 般 历 
数据 集中 的 所 有 交易 记录 。 对 每 一 条 记录 ， 遇 有 历 记录 中 的 每 一 个 项 。 


如 琳 菏 个 物品 项 没有 在 ci 中 出 现 ， 则 将 其 添加 到 cd FP o» 3X HSE AN eT) 
单 地 添加 每 个 物品 项 ， 而 十 添加 只 包含 该 物品 项 的 一 个 列表 '。 这样 做 
的 目的 是 为 每 个 物品 项 构建 一 个 集合 。 因 为 在 Apriori 算 法 的 后 续 处 理 
中 ， 需 要 做 集合 操作 。Python 不 能 创建 只 有 一 个 整数 的 集合 ， 因 此 这 里 
实现 时 必须 是 一 个 列表 (有 兴趣 的 读者 可 以 试 一下) 。 这 就 是 我 们 使 
用 一 个 由 单 物 品 列表 组 成 的 大 列表 的 原因 。 最 后 ， 对 大 列表 进行 排序 
并 将 其 中 的 每 个 香 元 到 列表 映 冉 到 frozenset() ， 最 后 返回 frozenset 的 
列表 @ 。 


1. 也 就 是 说 ，C1l 是 一 个 集合 的 集合 ， 如 {{0},{1},{2},…}， 每 次 添加 的 都 是 单个 项 构成 的 集合 {0}、{1}、{2}.….。 一 一 译 者 注 


程序 清单 11-1 中 的 第 二 个 函数 是 scanp() ， 它 有 三 个 参数 ， 分 别 是 数据 
集 、 候 选项 集 列表 Ck 以 及 感 兴趣 项 集 的 最 小 支持 度 minsupport ° EK 
数 用 于 从 ci 生成 L1。 另 外 ， 该 函数 会 返回 一 个 包含 文 持 度 值 的 字典 以 
备 后 用 。scanpD() 函数 首先 创建 一 个 空 字 典 sscnt ， 然 后 遍历 数据 集中 
的 所 有 交易 记录 以 及 ci 中 的 所 有 候选 集 。 如 果 ci 中 的 集合 是 记录 的 
部 分 ， 那 么 增加 字典 中 对 应 的 计数 值 。 这 里 字典 的 键 承 是 集合 。 当 扫 
描 完 数据 集中 的 所 有 项 以 及 所 有 候选 集 时 ， 残 需要 计算 文 持 度 。 不 满 
足 最 小 支持 度 要 求 的 集合 不 会 输出 。 男 数 也 会 移 构建 一 个 空 列表 ， 该 
列表 包含 满足 最 小 文 持 度 要 求 的 集合 。 下 一 个 循环 遍历 字典 中 的 每 个 
元 素 并 且 计 算 支 持 度 @。 如 果 支 持 度 满足 最 小 支持 度 要 求 ， 则 将 字典 
元 素 添 加 到 retList 中 。 可 以 使 用 语句 retList.insert(o, key) 在 列表 
的 首部 揪 入 任意 新 的 集合 。 当 然 也 不 一 定 非 要 在 首部 播 入 ， 这 只 是 为 
了 让 列表 看 起 来 有 组 织 。 函 数 最 后 返回 最 频繁 项 集 的 支持 度 
supportData , 该 值 会 在 下 一 世 中 使 用 


下 面 看 看 实际 的 运行 效果 。 保 存 apriori.py 之 后 ， 在 Python 提示 符 下 输 
A: 


>>> import apriori 


>>> dataSet-apriori.loadDataSet() 


>>> dataSet 


[[1, 3, 4], [2, 3, 5], [1, 2, 3, 5], [2, 5]] 


之 后 构建 第 一 个 候选 项 集 集合 cl : 
>>> C1=apriori.createCc1(dataSet ) 


>>> C1 


[frozenset([1]), frozenset([2]), frozenset([3]), frozenset([4]), frozenset([5])] 


可 以 看 到 ，ci 包含 了 每 个 frozenset 中 的 单个 物品 项 。 下 面 构建 集合 表示 
的 数据 集 p。 

>>> D-map(set,dataSet) 

>>> D 

[set([1，3，4])，set([2，3，5])，set([1，2，3，5])，set([2，5])] 


有 了 集合 形式 的 数据 ， 就 可 以 去 挥 那些 不 满足 最 小 支持 度 的 项 集 。 对 
上 面 这 个 例子 ， 我 们 使 用 0.5 作 为 最 小 支持 度 水 平 : 


>>> L1,suppDataO-apriori.scanD(D, C1, 0.5) 
>>> L1 


[frozenset([1]), frozenset([3]), frozenset([2]), frozenset([5])] 
上 述 4 个 项 集 构成 了 L1 列表 ， 该 列表 中 的 每 个 单 物品 项 集 至 少 出 现在 
50% 以 上 的 记录 中 。 由 于 物品 4 并 没有 达到 最 小 支持 度 ， 所 以 没有 包含 
在 L1 中 。 通 过 去 挥 这 件 物品 ， 减 少 了 得 找 两 物品 项 集 的 工作 量 。 
11.3.2 ”组 织 完整 的 Apriori 算 法 


整个 Apriori 算 法 的 伪 代 码 如 下 : 


当 集合 中 项 的 个 数 大 于 6 时 


构建 一 个 k 个 项 组 成 的 候选 项 集 的 列表 


检查 数据 以 确认 每 个 项 集 都 是 频繁 的 


保留 频繁 项 集 并 构建 k+1 项 组 成 的 候选 项 集 的 列表 


既然 可 以 过 滤 集 合 ， 那 么 就 能 够 构建 完整 的 Apriori 算 法 了 。 打 开 
apriori.py 文件 加 入 如 下 程序 清单 中 的 代码 。 


程序 清单 11-2 ”Apriori 算 法 
def aprioriGen(Lk, k): #creates Ck 
retList - [] 
lenLk - len(Lk) 
for i in range(lenLk): 


for j in range(it+i, lenLk): 


#@ (以 下 三 行 ) 前 k-2 个 项 相同 时 ， 将 两 个 集合 合并 


L1 = list(Lk[i])[:k-2]; L2 = list(Lk[j])[:k-2] 


L1.sort(); L2.sort() 


if L1--L2: 


retList.append(Lk[i] | Lk[j]) 


return retList 


def apriori(dataSet, minSupport - 0.5): 


C1 = createCi(datasSet) 


D = map(set, dataset) 


L1, supportData = scanD(D, C1, minSupport) 


L = [L1] 


while (len(L[k-2]) > 0): 


Ck = aprioriGen(L[k-2], k) 


se ”扫描 数据 集 ， 从 Ck 得 到 Lk 


Lk, supK = scanD(D, Ck, minSupport) 
supportData.update(supK) 
L.append(Lk) 

k += 1 


return L, supportData 


程序 清单 11-2 包 含 两 个 函数 aprioriGen() 与 apriori()。 其 中 主 函 数 是 
apriori() ， 它 会 调用 aprioricen() 来 创建 候选 项 集 ck 。 


函数 aprioriGen() 的 输入 参数 为 频繁 项 集 列表 Lk 与 项 集 元 素 个 数 k ， 
输出 为 ck。 举 例 来 说 ， 该 范 数 以 {0}、{1}、{2} 作 为 输入 ， 会 生成 
{0,1}、{0,2} 以 及 {1,2}。 要 完成 这 一 点 ， 首 先 创 建 一 个 空 列表 ， 然 后 计 


Lk 中 的 元 素数 目 。 接 下 来 ， 比 较 Lk 中 的 每 一 个 元 素 与 其 他 元 素 ， 这 
可 以 通过 两 个 for 循环 来 实现 。 紧 接着 ， 取 列表 中 的 两 个 集合 进行 比 
较 。 如 果 这 两 个 集合 的 前 面 k-2 个 元 素 都 相等 ， 那 么 就 将 这 两 个 集合 合 
成 一 个 大 小 为 k 的 集合 @@。 这 里 使 用 集合 的 并 操作 来 完成 ， 在 Python 中 
对 应 操作 符 | 。 


上 面 的 k-2 有 点 让 人 疑惑 。 接 下 来 再 进一步 讨论 细节 。 当 利用 {0}、 
{1} > {2} 构 建 {0,1}、{0,2}、 {1,2} 时 ， 这 实际 上 是 将 单个 项 组 合 到 一 
块 。 现 在 如 果 想 利用 {0,1} 、{0,2} 、{1,2} 来 创建 三 元 素 项 集 ， 应 该 怎 
么 做 ? 如 果 将 每 两 个 集合 合并 ， 就 会 得 到 {0, 1, 2}、 {0,1,2} > (0,1, 
2}。 也 就 是 说 ， 同 样 的 结果 集合 会 重复 3 次 。 接 下 来 需要 扫描 三 元 素 项 
集 列 表 来 得 到 非 重复 结果 ， 我 们 要 做 的 是 确保 遍历 列表 的 次 数 最 少 。 
现在 ， 如 采 比 较 集 合 {0,1} 、{0,2} 、{1,2} 的 第 1 个 元 素 并 只 对 第 1 个 元 
素 相同 的 集合 求 并 操作 ， 又 会 得 到 什么 结果 ? {0, 1 2}， 而 且 只 有 一 次 
操作 ! 这 样 就 不 需要 遍历 列表 来 寻找 非 重复 值 。 


上 面 所 有 的 操作 都 被 封装 在 apriori() 函数 中 。 给 该 函数 传递 一 个 数据 
集 以 及 一 个 文 持 度 ， 函 数 会 生成 候选 项 集 的 列表 ， 这 通过 首先 创建 cl 

然后 读 入 数据 集 将 其 转化 为 p (集合 列表 ) 来 完成 。 程 序 中 使 用 map ER 
数 将 set() 映射 到 dataset 列表 中 的 每 一 项 。 接 下 来 ， 使 用 程序 清单 11- 
1 中 的 scanD() 函数 来 创建 L1 ， 并 将 L1 放 入 列表 L 中 。L 会 包含 1 L2 

\`L3 ...。 现 在 有 了 L1 ， 后 面 会 继续 找 L2 ，L3 ...， 这 可 以 通过 while ff 
环 来 完成 ， 它 创建 包含 更 大 项 集 的 更 大 列表 ， 直 到 下 一 个 大 的 项 集 为 

空 。 如 果 这 上 听 起 来 让 人 有 点 困惑 的 话 ， 那 么 等 一 下 你 会 看 到 它 的 工作 

流程 。 首 先 使 用 aprioricen() 来 创建 ck ， 然 后 使 用 scanp() 基于 ck 来 

创建 Lk ° ck 是 一 个 候选 项 集 列表 ， 然 后 scanp() 会 遍历 ck ， 丢 掉 不 满 
足 最 小 支持 度 要 求 的 项 集 @。Lk 列表 被 添加 a 到 L ， 同 时 增加 k 的 值 ， 重 
复 上 述 过 程 。 最 后 ， 当 Lk 为 空 时 ， 程 序 返 回 L 并 退出 。 


下面 看 看 上 述 程序 的 执行 效果 * fffapriori.py 文件 后 ， 输 入 如 下 命 


令 


>>> reload(apriori) 


«module 'apriori' from 'apriori.pyc'» 


上 面 的 命令 创建 了 6 个 不 重复 的 两 元 素 集 合 ， 下 面 看 一 下 Apriori 算 法 : 


>>> L,suppData-apriori.apriori(dataSet) 


>>> L 


[[frozenset([1]), frozenset([3]), frozenset([2]), frozenset([5])], 


[frozenset([1, 3]), frozenset([2, 5]), frozenset([2, 3]), frozenset([3, 5])], 


[frozenset([2, 3, 5])], [11 


L 包含 满足 最 小 支持 度 为 0.5 的 频繁 项 集 列表 ， 下 面 看 一 下 具体 值 : 
>>> L[0] 
[frozenset([1]), frozenset([3]), frozenset([2]), frozenset([5])] 
>>> L[1] 
[frozenset([1, 3]), frozenset([2, 5]), frozenset([2, 3]), 
frozenset([3, 5])] 
>>> L[2] 
[frozenset([2, 3, 5])] 
»»» L[3] 


[] 


每 个 项 集 都 是 在 函数 apriori() 中 调用 函数 aprioricen() 来 生成 的 。 下 
面 看 一 下 aprioriGen() 函数 的 工作 流程 : 


>>> apriori.aprioriGen(L[0], 2) 


[frozenset([1, 3]), frozenset([1, 2]), frozenset([1, 5]), 


frozenset([2, 3]), frozenset([3, 5]), frozenset([2, 5])] 


这 里 的 6 个 集合 是 候选 项 集 ck 中 的 元 又 。 其 中 4 个 集合 在 L[1] P, 482 
个 集合 被 函数 scanD() 过 滤 掉 。 


下 面 再 党 试 一 下 70% 的 文 持 度 : 
>>> L,suppData-apriori.apriori(dataSet,minSupport-0.7) 
>>> L 


[[frozenset([3]), frozenset([2]), frozenset([5])], [frozenset([2, 5])], [1] 


Z Esupppata 是 一 个 字典 ， 它 包含 我 们 项 集 的 支持 度 值 。 现 在 暂时 不 
堵 虑 这 些 值 ， 不 过 下 一 市 会 用 到 这 些 值 。 


现在 可 以 知道 哪些 项 出 现在 70% 以 上 的 记录 中 ， 还 可 以 基于 这 些 信息 得 
到 一 些 结论 。 我 们 可 以 像 许 多 程序 一 样 利用 数据 得 到 一 些 结论 ， 或 者 
可 以 生成 if-then 形式 的 关联 规 则 来 理解 数据 。 下 一 太 会 束 此 展开 讨 


论 。 


11.4 JE DIR PHA AU 


11.27 Haten, nI DUARIFHOSHA ATI AUT Ze ERI] IATER ^ Ut 
TRAPS HEEM DIS SEAM e E— B SP 28 UU f FA priori f 
法 来 发 现 频繁 项 集 ， 现 在 需要 解决 的 问题 是 如 何 找 出 关联 规则 o 


要 找 到 关联 规则 ， 我 们 首 和 匈 从 一 个 频繁 项 集 开 始 。 我 们 知道 集合 中 的 
TLR ED BRAY, (LETRA Tix ECR BE BRIA o FE 
APTUS BE ART ZUR EG HT BES HES BD TIT ^ MARTE APIS 
ALE, MRA T REUS GUT, BE}, HIA CRI BER ARK 
规则 “豆奶 — 秃 童 ”。 这 意味 着 如 果 有 人 购买 了 豆奶 ， 那 么 在 统计 上 他 
会 购买 英 芭 的 概率 较 大 。 但 是 ,这 一 条 反 过 来 并 不 总 是 成 立 。 也 就 是 

说 ， 即 使 “豆奶 ~ RESTLESS, PARE ~” 豆奶 ”也 不 一 定 成 


iue. e NEA 箭头 左边 的 集合 称 作 前 件 ， 箭 头 右边 的 集 


合 称 为 后 件 


11.3 节 给 出 了 频 党 项 集 的 量化 定义 ， 即 它 满足 最 小 文 持 度 要 求 。 对 于 关 
联 规则 ， 我 们 也 有 类 似 的 量化 方法 ， 这 种 量化 指标 称 为 可 信和 度 。 一 条 
规则 P > H 的 可 信和 度 定 义 为 support(P | H)/support(P) 。 记 住 ， 在 
Python 中 ， 操 作 符 | 表示 集合 的 并 操作 ， 而 数学 上 集合 并 的 符号 是 u。P 
| H 是 指 所 有 出 现在 集合 P 或 者 集合 H 中 的 元 素 。 前 面 一 和 已 经 计算 了 
所 有 频繁 项 集 支 持 度 。 现 在 想 获 得 可 信和 度 ， 所 需要 做 的 只 是 取出 那些 
支持 度 值 做 一 次 除法 运算 。 


从 一 个 频繁 项 集中 可 以 产生 多 少 条 关联 规则 ? 图 11-4 的 网 格 图 给 出 的 是 
从 项 集 {0,12,3} 产 生 的 所 有 关联 规则 。 为 找到 感 兴趣 的 规则 ， 我 们 先生 
成 一 个 可 能 的 规则 列表 ， 然 后 测试 每 条 规则 的 可 信和 度 。 如 果 可 信和 度 不 
满足 最 小 要 求 ， 则 去 挥 该 规则 。 


图 11-4 ”对 于 频繁 项 集 {0,1,2,3} 的 关联 规则 网 格 示意 图 。 阴 影 区 域 给 出 
的 是 低 可 信 度 的 规则 。 如 果 发 现 0,1,2 -3 是 一 条 低 可 信 度 规则 ， 那 么 所 
有 其 他 以 3 作为 后 件 的 规则 可 信 度 也 会 较 低 
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联 规则 。 如 末 能 够 减少 规则 数目 来 确保 问题 的 可 解 性 ， 那 么 计算 起 来 
束 会 好 很 多 。 可 以 观察 到 ， 如 采 某 条 规则 并 不 满足 最 小 可 信 度 要 求 ， 
那么 该 规则 的 所 有 子 集 也 不 会 满足 最 小 可 信和 度 要 求 。 以 图 11-4 为 例 ， 假 
设 规则 0,1,2 — 3 并 不 满足 最 小 可 信 度 有 要求， 那么 就 知道 任何 左 部 为 
{0,1,2} 子 集 的 规则 也 不 会 满足 最 小 可 信 度 要 求 。 在 图 11-4 中 这 些 规 则 上 
都 加 了 阴影 来 表示 。 


可 以 利用 关联 规则 的 上 述 性 质 属性 来 减少 需要 测试 的 规则 数目 。 类 似 
于 程序 清单 11-2 中 的 Apriori 算 法 ， 可 以 首先 从 一 个 频繁 项 集 开始 ， 接 着 
创建 一 个 规则 列表 ， 其 中 规则 右 部 只 包含 一 个 元 素 ， 然 后 对 这 些 规则 
进行 测试 。 接 下 来 合并 所 有 算 余 规则 来 创建 一 个 新 的 规则 列表 ， 其 中 
规则 右 部 包含 两 个 元 素 。 这 种 方法 也 被 称 作 分 级 法 。 下 面 看 一 下 这 种 
方法 的 实际 效果 ， 打 开 apriori.py 文件 ， 加 入 下 面 的 代码 。 


程序 清单 11-3 ”关联 规则 生成 函数 


def generateRules(L, supportData, minConf=0.7): 


bigRuleList = [] 


#0 只 获取 有 两 个 或 更 多 元 素 的 集合 


for i in range(1, len(L)): 


for fregSet in L[i]: 


H1 = [frozenset([item]) for item in freqSet] 


if (i»1): 


rulesFromConseq(freqSet, H1, supportData, bigRuleList,minConf) 


else: 


calcConf(freqSet, H1, supportData, bigRuleList, minConf) 


return bigRuleList 


def calcConf(freqSet, H, supportData, brl, minConf=0.7): 


prunedH - [] 


for conseq in H: 


conf = supportData[freqSet ]/supportData[freqSet -conseq] 


if conf >= minConf: 


print freqSet-conseq, '-->', conseq, 'conf:', conf 


brl.append((freqSet-conseq, conseq, conf)) 


prunedH.append(conseq) 


return prunedH 


def rulesFromConseq(freqSet, H, supportData, brl, minConf=0.7): 


m = len(H[0]) 


#0 尝试 进一步 


if (len(freqSet) > (m + 1)): 


4e 创建 Hm+1 条 新 候选 规则 


Hmpi = aprioriGen(H, m + 1) 


Hmp1 


calcConf(freqSet, Hmpi, supportData, brl, minConf) 


if (len(Hmpi) > 1): 


rulesFromConseq(freqSet, Hmpi, supportData, brl, minConf) 


LE 3tUERFE "FABIA — SENA 9 $8— T ERE generateRules() ZÉXEENZA, € 
Và] Fg EC PA A ERA o 其 他 两 个 函数 是 rulesFromconseq() 和 calcconf() 
， 分 别 用 于 生成 候选 规则 集合 以 及 对 规则 进行 评估 。 


函数 generateRules() 有 3 个 参数 : 频 党 项 集 列 表 、 包 合 那 些 频 党 项 集 

文 持 数据 的 字典 、 最 小 可 信和 度 冰 值 。 函 数 最 后 要 生成 一 个 包含 可 信 度 

的 规则 列表 ， 后 面 可 以 基于 可 信 度 对 它们 进行 排序 。 这 些 规则 存放 在 

bigRuleList 中 。 如 果 事 先 没 有 给 定 最 小 可 信和 度 的 国 值 ， 那 么 默认 值 设 
为 0.7。generateRules() 的 另 两 个 输入 参数 正好 是 程序 清单 11-2 中 画 数 
apriori() 的 输出 结果 。 该 函数 遍历 ! 中 的 每 一 个 频繁 项 集 并 对 每 个 频 
繁 项 集 创建 只 包含 单个 元 素 集合 的 列表 H1 。 因 为 无 法 从 单元 素 项 集中 

构建 天 联 规 则 ， 所 以 要 从 包含 两 个 或 者 更 多 元 素 的 项 集 开始 规则 构建 

过 程 @@。 如 果 从 集合 {0,12} 开 始 ， 那 么 H1 应 该 是 [{0},{1},{2}]。 如 有 果 频 
党项 集 的 元 素数 目 超过 2， 那 么 会 考虑 对 它 做 进一步 的 合并 。 有 具体 合并 
可 以 通过 函数 rulesFromconseq() 来 完成 ， 后 面 会 详细 讨论 合并 过 程 。 

人 那么 使 用 函数 calcconf() 来 计算 可 信和 度 


我 们 的 目标 是 计算 规则 的 可 信和 度 以 及 找到 满足 最 小 可 信和 度 要 求 的 规 

则 。 所 有 这 些 可 以 使 用 函数 calcconf() 来 完成 ， 而 程序 清单 11-3 中 的 其 
余 代 码 都 用 来 准备 规则 。 画 数 会 返回 一 个 满足 最 小 可 信 度 要 求 的 规则 
列表 ， 为 了 保存 这 些 规 则 ， 需 要 创建 一 个 空 列表 prunedh » HRI, oH 
历 H 中 的 所 有 项 集 并 计算 它们 的 可 信和 度 值 。 可 信和 度 计算 时 使 用 
supportData 中 的 文 持 度数 据 。 通 过 导入 这 些 文 持 度数 据 ， 可 以 和 省 大 
量 计算 时 间 。 如 果 某 条 规则 满足 最 小 可 信和 度 值 ， 那 么 将 这 些 规 则 输出 
到 屏幕 显示 。 通 过 检查 的 规则 也 会 被 返回 ， 并 被 用 在 下 一 个 函数 
rulesFromconseq() 中 。 同 时 也 需要 对 列表 brl 进行 填充 ， 而 brl 是 前 面 
通过 仿 查 的 bigRuleList $ 


为 从 最 初 的 项 集中 生成 更 多 的 关联 规则 ， 可 以 使 用 rulesFromconseq() 
函数 。 该 畏 数 有 2 个 参数 : 一 个 是 频繁 项 集 ， 男 一 个 是 可 以 出 现在 规则 
右 部 的 元 素 列表 H 。 函 数 先 计算 H 中 的 频繁 集 大 小 m @@“。 接 下 来 查看 该 
频繁 项 集 是 否 大 到 可 以 移 除 大 小 为 m 的 子 集 。 如 果 可 以 的 话 ， 则 将 其 移 


除 。 可 以 使 用 程序 清单 11-2 中 的 函数 aprioricen() 来 生成 H 中 元 素 的 无 
重复 组 合 @。 该 结果 会 存储 在 Hmp1 中 ， 这 也 是 下 一 次 迭代 的 H 列表 。 
Hmpi 包含 所 有 可 能 的 规则 。 可 以 利用 calcconf() 来 测试 它们 的 可 信和 度 
以 确定 规则 是 否 满 足 要 求 。 如 果 不 止 一 条 规则 满足 要 求 ， 那 么 使 用 
Hmp1 3A fV JS FH ER rulesFromconseq() 来 判断 是 否 可 以 进一步 组 合 这 些 
规则 e 


面 看 一 下 实际 的 运行 效果 ， 保 存 apriori.py 文件 ， 在 Python 提示 符 下 
SUA: 


>>> reload(apriori) 


«module 'apriori' from 'apriori.py'» 


现在 ， 让 我 们 生成 一 个 最 小 支持 度 是 9 , 5 的 频繁 项 


m 


PESE 


>>> L, suppData=apriori.apriori(dataSet,minSupport=0.5) 
>>> rules=apriori.generateRules(L,suppData, minConf=0.7) 


>>> rules 


[(frozenset([1]), frozenset([3]), 1.0), (frozenset([5]), frozenset([2]),1.0) 
, (frozenset([2]), frozenset([5]), 1.0)] 


frozenset([1]) --> frozenset([3]) conf: 1.0 


frozenset([5]) --» frozenset([2]) conf: 1.0 


frozenset([2]) --» frozenset([5]) conf: 1.0 


结 末 中 给 出 三 条 规则 : {1} 9 {3} > {5} > {2} 及 {2} 一 {5}]。 可 以 看 到 ， 
后 两 条 包 侣 2 和 5 的 规则 可 以 互 换 前 件 和 后 件 ， 但 是 前 一 条 包含 1 和 3 的 
规则 不 行 。 下 面 降 低 可 信和 度 国 值 之 后 看 一 下 续 


>>> rules=apriori.generateRules(L,suppData, minConf=0.5) 


>>> rules 


[(frozenset([3]), frozenset([1]), 0.6666666666666666), (frozenset([1]),frozenset 


([3]), 1.0), (frozenset([5]), frozenset([2]), 1.9), 
(frozenset([2]), frozenset([5]), 1.0), (frozenset([3]), frozenset([2]),0.6666666 


666666666), (frozenset([2]), frozenset([3]), 0.6666666666666666), 


(frozenset([5]), frozenset([3]), 0.6666666666666666), (frozenset([3]), frozenset( 


[5]), 0.6666666666666666), (frozenset([5]), frozenset([2, 3]), 


0.6666666666666666), (frozenset([3]), frozenset([2, 5]),0.6666666666666666), (fr 


ozenset([2]), frozenset([3, 5]),0.6666666666666666)] 


frozenset([3]) --» frozenset([1]) conf: 0.666666666667 


frozenset([1]) --» 


frozenset([5]) --» 


frozenset([2]) --» 


frozenset([3]) --» 


frozenset([2]) --» 


frozenset([5]) --» 


frozenset([3]) --» 


frozenset([5]) --» 


frozenset([3]) --» 


frozenset([2]) --» 


frozenset([3]) conf: 


frozenset([2]) conf: 


frozenset([5]) conf: 


frozenset([2]) conf: 


frozenset([3]) conf: 


frozenset([3]) conf: 


frozenset([5]) conf: 


0.666666666667 


0.666666666667 


0.666666666667 


0.666666666667 


frozenset([2, 3]) conf: 0.666666666667 


frozenset([2, 5]) conf: 0.666666666667 


frozenset([3, 5]) conf: 0.666666666667 


一 旦 降低 可 信和 度 国 值 ， 就 可 以 获得 更 多 的 规则 。 到 现在 为 上 上， 我 们 看 


到 上 述 程序 能 够 在 一 个 小 数据 集 上 正常 


运行 ， 搂 下 来 将 在 一 个 更 大 的 


真实 数据 集 上 测试 一 下 效果 。 有 具体 地 ， 下 一 将 检查 其 在 美国 国会 投 
票 记录 上 的 处 理 效 果 。 


115 示例 : 发 现 国会 投票 中 的 模式 


前 面 我 们 已 经 发 现 频繁 项 集 及 关联 规则 ， 现 在 是 时 候 把 这 些 工具 用 在 真实 
数据 上 了 。 那 么 可 以 使 用 什么 样 的 数据 呢 ? ir S LEAN. 
前 面 已 经 用 过 了 “。 另 一 个 例子 是 搜索 引擎 中 的 查询 词 。 这 个 示例 听 上 去 不 
错 ， 不 过 下 面 看 到 的 是 一 个 更 有 趣 的 美 EIE A XS FORT 。 
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据 集 有 点 偏 旧 ， 而 且 其 中 的 议题 对 我 来 讲 意义 也 不 大 。 我 们 想 尝 试 一 些 更 
BNE 。 目前 有 不 少 组 织 致 力 于 将 政府 数据 公开 化 ， MU a 
智能 投票 工程 (Project Vote Smart， 网 址 : http://www.votesmart.org ) , 
提供 了 一 个 公共 的 API 。 下 面 会 看 到 如 何 从 Votesmart.org 获 取 数 据 ， 并 将 其 
转化 为 用 于 生成 频繁 项 集 与 关联 规则 的 格式 。 该 数据 可 以 用 于 苋 选 的 目的 
或 者 预测 政治 家 如 何 投票 。 


示例 : 在 美国 国会 投票 记录 中 发 现 关 联 规则 


1. 收集 数据 : 使 用 votesmart 模块 来 访问 投票 记录 。 
A Coo) 构造 一 个 函数 来 将 投票 转化 为 一 串 交 易 记 录 。 
分 析 数 据 : 在 Python 提示 符 下 查看 准备 的 数据 以 确保 其 正确 性 。 
i 训练 算法 : 使 用 本 章 早 先 的 apriori() fllgenerateRules() 函数 来 发 现 
投票 记录 中 的 有 趣 信息 。 
5. 测 试 算法 : 不 适用 ， 即 没有 测试 过 程 。 
6. 使 用 算法 : 这 里 只 是 出 于 娱乐 的 目的 ， 不 过 也 可 以 使 用 分 析 结 果 来 为 
政治 竞选 活动 服务 ， 或 者 预测 选举 官员 会 如 何 投票 。 


接 下 来 ， 我 们 将 处 理 投票 记录 并 创建 一 个 交易 数据 库 。 这 需要 一 些 创 造 性 
E 最 后 ， 我 们 会 使 用 本 革 早 先 的 代码 来 生成 频繁 项 集 和 关联 规则 的 列 


11.5.1 ”收集 数据 : 构建 美国 国会 投票 记录 的 事务 数据 集 


智能 投票 工程 已 经 收集 了 大 量 的 政府 数据 ， 他 们 同时 提供 了 一 个 公开 的 API 
来 访问 该 数据 http://api.votesmart.org/docs/terms.html] ° Sunlight 实验 室 写 过 
一 个 Python 模 块 用 于 访问 该 数据 ， 该 模块 在 
https://github.com/sunlightlabs/python-votesmart 中 有 很 多 可 供 参 考 的 文档 。 


下 面 要 从 美国 国会 获得 一 些 最 新 的 投票 记录 并 基于 这 些 数据 来 答 试 学 习 一 
些 关 联 规则 o 


我 们 希望 最 终 数 据 的 格式 与 图 11-1 中 的 数据 相同 ， 即 每 一 行 代表 美国 国会 的 
一 个 成 员 ， 而 每 列 都 是 他 们 投票 的 对 象 。 接 下 来 从 国会 议员 最 近 投 票 的 内 
容 开 始 。 WAKA SUR python-votesmart , 或 者 没有 获得 API key, 那么 需 
要 先 完成 这 两 件 事 。 关 于 如 何 安 装 python-votesmart 可 以 参考 附 孙 A。 


要 使 用 votesmart API， 需 要 导入 votesmart 模块 : 


>>> from votesmart import votesmart 


接 下 来 ， 输 入 你 的 API key ': 


>>> votesmart.apikey = '49024thereoncewasamanfromnantucket94040' 


现在 就 可 以 使 用 votesmart API 了 。 为 了 获得 最 近 的 100 条 议案 ， 输 入 : 


>>> bills = votesmart.votes.getBillsByStateRecent() 


为 了 看 看 每 条 议案 的 具体 内 容 ， 输 入 : 


>>> bills = votesmart.votes.getBillsByStateRecent() 


To see what each bill is, enter the following: 


>>> for bill in bills: 


print bill.title,bill.billId 


Amending FAA Rulemaking Activities 13020 


Prohibiting Federal Funding of National Public Radio 12939 


Additional Continuing Appropriations 12888 


Removing Troops from Afghanistan 12940 


"Whistleblower Protection" for Offshore Oil Workers 11820 
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100 条 议案 的 标题 及 ID 号 (billld) 保存 为 recent1ogbills.txt 文件 。 


可 以 通过 getBil1() 方法 ， 获 得 每 条 议案 的 更 多 内 容 。 比 如 ， 对 刚才 的 最 后 
一 条 议案 “Whistleblower Protection”， 其 ID 号 为 11820。 下 面 看 看 实际 结 
HR. 


>>> bill = votesmart.votes.getBill(11820) 


上 上进 命 令 会 返回 一 个 Billpetail 对 象 ， 其 中 包含 大 量 完 整 信息 。 我 们 可 以 
查看 所 有 信息 ， 不 过 这 里 我 们 所 感 兴 趣 的 只 是 围绕 议案 的 所 有 行为 。 可 以 
通过 输入 下 列 命令 来 查看 实际 结果 : 


>>> bill.actions 


上 述 命 令 会 返回 许多 行为 ， 议 案 包 括 议 案 被 提出 时 的 行为 以 及 议案 在 投票 
时 的 行为 。 我 们 对 投票 发 生 时 的 行为 感 兴 趣 ， 可 以 输入 下 面 命 令 来 获得 这 


些 信 A H 


>>> for action in bill.actions: 


if action.stage--'Passage': 


print action.actionId 


31670 


上 述 信 息 并 不 完整 ， 一 条 议案 会 经 历 多 个 阶段 。 一 项 议案 被 提出 之 后 ， 经 
由 美国 国会 和 众议院 投票 通过 后 ， 才 能 进入 行政 办 公 室 。 其 中 的 Passage 

(议案 通过 ) 阶段 可 能 存在 欺骗 性 ， 因 为 这 有 可 能 是 行政 办 公 室 的 Passage 
阶段 ， 那 里 并 没有 任何 投票 。 


为 获得 某 条 特定 议案 的 投票 信息 ， 使 用 getBillActionvotes() 方法 : 


>>> votelist = votesmart.votes.getBillActionVotes(31670) 


其 中 ，voteList 是 一 个 包 仿 vote 对 象 的 列表 。 输 入 下 面 的 命令 来 看 一 下 里 
面包 含 的 内 容 : 


>>> VoteList[22] 


Vote({u'action': u'No Vote', u'candidateId': u'430', u'officeParties':u'Democratic', 


u'candidateName': u'Berry, Robert'}) 
>>> votelist[21] 


Vote({u'action': u'Yea', u'candidateId': u'26756', u'officeParties':u'Democratic', u' 


candidateName': u'Berman, Howard'}) 


现在 为 止 ， 我 们 已 经 用 过 这 些 相 关 API， 可 以 将 它们 组 织 到 一 块 了 。 接 下 来 
会 给 出 一 个 函数 将 文本 文件 中 的 billitd 转化 为 actionId 。 如 前 所 述 ， 并 非 
所 有 的 议案 都 被 投票 过 ， 另 外 可 能 有 一 些 议 案 在 多 处 进行 了 议案 投票 。 也 
就 是 说 需要 对 actionId 进行 过 滤 只 保留 包含 投票 数据 的 actionTd 。 这 样 处 
理 之 后 将 100 个 议案 过 滤 到 只 剩 20 个 议案 ， 这 些 剩 下 的 议案 都 是 我 认为 有 趣 
的 议案 ， 它们 被 保存 在 文件 recent29bills.txt 中 。 下 面 给 出 一 个 
getActionIds() 函数 来 处 理 actionIds 的 过 滤 。 打 开 apriori.py 文件 ， 输 入 
下 面 的 代码 *。 


2. 不 要 忘 了 使 用 你 自己 的 API key 来 代替 例子 中 的 key! 


程序 清单 11-4 ”收集 美国 国会 议案 中 action ID 的 函数 


from time import sleep 


from votesmart import votesmart 


votesmart.apikey = '49024thereoncewasamanfromnantucket94040' 


def getActionIds(): 


actionIdList = []; billTitleList = [] 


fr - open('recent20bills.txt') 


for line in fr.readlines(): 


billNum = int(line.split('Nt')[0]) 


try: 


billDetail - votesmart.votes.getBill(billNum) 


for action in billDetail.actions: 


#0 (以 下 两 行 ) 过 滤 出 包含 投票 的 行为 


if action.level -- 'House' and (action.stage -- 'Passage' or action.stage == 


'Amendment Vote'): 


actionId - int(action.actionId) 


print 'bill: %d has actionId: %d' % (billNum, actionId) 


actionIdList.append(actionId) 


billTitleList.append(line.strip().split('\t')[1]) 


except: 


print "problem getting bill %d" 96 billNum 


sleep(1) 
#@ 为 礼貌 访问 网 站 而 做 些 延 迟 


return actionIdList, billTitleList 


上 述 程 序 中 导入 了 votesmart 模块 并 通过 引入 sleep 函数 来 延迟 API 调 用 。 
getActionsIds() 函数 会 返回 存储 在 recent26bills .txt 文件 中 议案 的 
actionId 。 程 序 先 导入 API key， 然 后 创建 两 个 空 列表 。 这 两 个 列表 分 别 用 
来 返回 actionsId 和 标题 。 首 先 打开 recent20bills.txt 文 件 ， 对 每 一 行内 不 同 元 
素 使 用 tab 进 行 分 隔 ， 之 后 进入 try-except 模块 。 由 于 在 使 用 外 部 API 时 可 能 
会 遇 到 错误 ， 并 且 也 不 想 让 错误 占用 数据 获取 的 时 间 ， 上 述 try-except 模 
块 调 用 是 一 种 非常 可 行 的 做 法 。 所 以 ， 首 先 尝试 使 用 getBi11() 方法 来 获得 
一 个 billDetail 对 象 。 接 下 来 遇 历 议案 中 的 所 有 行为 ， 来 寻找 有 投票 数据 
的 行为 。 在 Passage 阶 段 与 Amendment Vote (修正 案 投 票 ) 阶段 都 会 有 投票 
数据 ， 要 找 的 束 是 它们 。 现 在 ， 在 行政 级 别 上 也 有 一 个 Passage 阶 段 ， 但 那 
个 阶段 并 不 包含 任何 投票 数据 ， 所 以 要 确保 这 个 阶段 是 发 生 在 众议院 @。 
如 果 确 实 如 此 ， 程 序 就 会 将 actionId 打印 出 来 并 将 它 添加 到 actionIdList 
中 。 同 时 ， 也 会 将 议案 的 标题 添加 到 billTitleList 中 。 如 果 在 API 调 用 时 
发 生 错 误 ， 就 不 会 执行 actionIdList 的 添加 操作 。 一 旦 有 错误 就 会 执行 
except 模块 并 将 错误 信息 输出 。 最 后 ， 程 序 会 休 眼 1 秒 钟 ， 以 避免 对 
Votesmart.org 网 站 的 过 度 频 繁 访问 。 程 序 运行 结束 时 ，actionIdList 与 
billTitleList 会 被 返回 用 于 进一步 的 处 理 。 


下 面 看 一 下 实际 运行 效果 。 将 程序 清单 11-4 中 的 代码 加 入 到 apriori.py 文件 
后 ， 输 入 如 下 命令 : 


>>> reload(apriori) 


«module 'apriori' from 'apriori.py'» 


>>> actionIdList,billTitles = apriori.getActionIds() 


bill: 12939 has actionId: 34089 


bill: 12940 has actionId: 34091 


bill: 12988 has actionId: 34229 


可 以 看 到 actionId 显示 了 出 来 ， 它 同时 也 被 添加 到 actionIdList 中 输出 ， 
以 后 我 们 可 以 使 用 这 些 actionId 了 。 如 果 程 序 运行 错误 ， 则 尝试 使 用 
try. .except 代码 来 捕获 错误 。 我 自己 就 曾经 在 获取 所 有 actiondId MY i £l 
一 个 错误 。 接 下 里 可 以 继续 来 获取 这 些 actionId 的 投票 信息 。 


选举 人 可 以 投 是 或 否 的 表决 票 ， 也 可 以 弃权 。 需 要 一 种 方法 来 将 这 些 上 述 
信息 转化 为 类 似 于 项 集 或 者 交易 数据 库 之 类 的 东西 。 前 面 提 到 过 ， 一 条 交 
易 记 录 数 据 只 包含 一 个 项 的 出 现 或 不 出 现 信 息 ， 并 不 包含 项 出 现 的 次 数 。 
基于 上 述 投 票数 据 ， 可 以 将 投票 是 或 否 看 成 一 个 元 素 。 


美国 有 两 个 主要 政党 : 共和 党 与 民主 党 。 下 面 也 会 对 这 些 信 息 进 行 编码 并 
写 到 事务 数据 库 中 。 壹 运 的 是 ， 这 些 信息 在 投票 数据 中 已 经 包括 。 下 面 给 
出 构建 事务 数据 库 的 流程 ， 首先 创建 一 个 字典 ， 字 典 中 使 用 政客 的 名 字 作 
为 键 值 。 当 某 政客 首次 出 现时 ， 将 他 及 其 所 属 政党 (民主 党 或 者 共和 党 ) 
添加 到 字典 中 ， 这 里 使 用 0 来 代表 民主 党 ，1 来 代表 共和 党 。 下 面 介 绍 如 何 
对 投票 进行 编码 。 对 每 条 议案 创建 两 个 条 目 : bill+'Yea' 以 及 bill+'Nay' 

。 该 方法 允许 在 某 个 政客 根本 没有 投票 时 也 能 合理 编码 。 图 11-5 给 出 了 从 投 
票 信 息 到 元 素 项 的 转换 结果 。 
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图 11-5 ”美国 国会 信息 到 元 素 (项 ) 编号 之 间 的 映射 示意 图 


现在 ， 我 们 已 经 有 一 个 可 以 将 投票 编码 为 元 素 项 的 系统 ， 接 下 来 是 时 候 生 
成 事务 数据 库 了 。 一 旦 有 了 事务 数据 库 ， 束 可 以 应 用 早先 写 的 Apriori 代 
码 。 下 面 将 构建 一 个 使 用 actionId 串 作 为 输入 并 利用 votesmart 的 API 来 抓 
取 投 票 记 隶 的 函数 。 然 后 将 每 个 选举 人 的 投票 转化 为 一 个 项 集 。 每 个 选举 
人 对 应 于 一 行 或 者 说 事务 数据 库 中 的 一 条 记录 。 下 面 看 一 下 实际 的 效果 ， 
打开 apriori.py 文件 并 添加 下 面 清 单 中 的 代码 。 


程序 清单 11-5 基于 投票 数据 的 事务 列表 填充 函数 


def getTransList(actionIdList, billTitleList): 


itemMeaning = ['Republican', 'Democratic'] 


for billTitle in billTitleList: 


#0 (以 下 三 行 ) 填充 itemMeaning 列 表 


itemMeaning.append('%s -- Nay' % billTitle) 


itemMeaning.append('%s -- Yea' % billTitle) 


transDict = {} 


voteCount = 2 


for actionlId in actionIdList: 


sleep(3) 


print 'getting votes for actionId: %d' % actionId 


try: 


voteList = votesmart.votes.getBillActionVotes(actionId) 


for vote in voteList: 


if not transDict.has key(vote.candidateName): 


transDict[vote.candidateName] = [] 


if vote.officeParties -- 'Democratic': 


transDict[vote.candidateName].append(1) 


elif vote.officeParties -- 'Republican': 


transDict[vote.candidateName].append(0) 


if vote.action -- 'Nay': 


transDict[vote.candidateName].append(voteCount) 


elif vote.action -- 'Yea': 


transDict[vote.candidateName].append(voteCount + 1) 


except: 


print "problem getting actionId: %d" % actionId 


voteCount += 2 


return transDict, itemMeaning 


函数 getTransList() 会 创建 一 个 事务 数据 库 ， 于 是 在 此 基础 上 可 以 使 用 前 
面 的 Apriori 代 码 来 生成 频 党 项 集 与 天 联 规则 。 该 范 数 也 会 创建 一 个 标题 列 
表 ， 所 以 很 容易 了 解 每 个 元 素 项 的 含义 。 一 开始 使 用 前 两 个 元 

素 “Repbulican” 和 “Democratic” 创 建 一 个 含义 列表 itemMeaning。 当 想 知 道 某 
些 元 素 项 的 具体 含义 时 ， 需 要 做 的 是 以 元 素 项 的 编号 作为 索引 访问 
itemMeaning 即 可 。 接 下 来 遍历 所 有 议案 ， 然 后 在 议案 标题 后 添加 Nay Ux. 
XD 或 者 Yea 〈 同 意 ) 并 将 它们 放 入 itemMeaning 列表 中 @。 接 下 来 创建 一 
个 空 字典 用 于 加 入 元 素 项 ， 然 后 遇 历 函数 getActionIds() 返回 的 每 一 个 
actionId 。 电 历时 要 做 的 第 一 件 事 是 休眠 ， 即 在 for 循环 中 一 开始 调用 
sleep() 函数 来 延迟 访问 ， 这 样 做 可 以 避免 过 于 频 索 的 API 调 用 。 接 着 将 运 
行 结 果 打 印 出 来 ， 以 便 知 道 程 序 是 否 在 正常 工作 。 再 接着 通过 try. .except 
块 来 使 用 votesmart API 获 取 某 个 特定 actionId 相关 的 所 有 投票 信息 。 然 
后 ， 遍 历 所 有 的 投票 信息 (通常 voteList 会 超过 400 个 投票 ) 。 在 遍历 时 ， 
使 用 政客 的 名 字 作 为 字典 的 键 值 来 填充 transpict 。 如 果 之 前 没有 遇 到 该 政 


客 ， 那 么 就 要 获取 他 的 政 沈 信息。 字典 中 的 每 个 政客 都 有 一 个 列表 来 存储 
他 投票 的 元 素 项 或 者 他 的 政党 信息 。 接 下 来 会 看 到 该 政客 是 否 对 当前 议案 

投了 赞成 (Yea) 或 反对 (Nay) 票 。 如 果 他 们 之 前 有 投票 ， 那 么 不 管 是 投 
赞成 票 还 是 反对 票 ， 这 些 信 息 都 将 添加 到 列表 中 。 Bie T IT 
么 销 误 ，except REHAT MAF Rie Ss EBlpisLb, Z 
后 函数 仍然 继续 执行 。 最 后 ， 程 序 返 回 事务 —icransbict ROLE SCR 


XéitemMeaning 9 


下 面 看 一 下 投票 信息 的 前 两 项 ， 了 解 上 述 代 码 是 否 正 党 工作 : 


>>> reload(apriori) 

«module 'apriori' from 'apriori.py'» 

>>>transDict, itemMeaning=apriori.getTransList(actionIdList[:2],billTitles[:2]) 
getting votes for actionId: 34089 


getting votes for actionId: 34091 


下 面 看 一 下 transDict 中 包含 的 具体 内 容 : 


>>> for key in transDict.keys(): 
print transDict[key] 

[1, 2, 5] 

[1, 2, 4] 

[0, 3, 4] 

[0, 3, 4] 

[1, 2, 4] 


[0, 3, 4] 


[1, 2, 4] 


[1, 2, 4] 


[0, 3, 4] 


[1, 2, 5] 


[1, 2, 4] 


如 果 上 面 许多 列表 看 上 去 都 类 似 的 话 ， 读 者 也 不 要 太 过 担心 。 许 多 政客 的 
投票 结果 都 很 类 似 。 现 在 如 果 给 定 一 个 元 素 项 列表 ， 那 么 可 以 使 用 
itemMeaning 列表 来 快速 “解码 ”出 它 的 含义 : 

>>> transDict.keys()[6] 

u' Doyle, Michael 'Mike'' 


>>> for item in transDict[' Doyle, Michael 'Mike'']: 


print itemMeaning[item] 


Republican 
Prohibiting Federal Funding of National Public Radio -- Yea 


Removing Troops from Afghanistan - Nay 


上 述 输 出 可 能 因 Votesmart 服 务 器 返回 的 结果 不 同 而 有 所 差异 。 


m= + 
下 面 看 看 完整 列表 下 的 结果 : 
>>> transDict,itemMeaning-apriori.getTransList(actionIdList, billTitles) 
getting votes for actionId: 34089 
getting votes for actionId: 34091 


getting votes for actionId: 34229 


接 下 来 在 使 用 前 面 开 发 的 Apriori 算 法 之 前 ， 需 要 构建 一 个 包含 所 有 事务 项 
的 列表 。 可 以 使 用 类 似 于 前 面 for 循环 的 一 个 列表 处 理 过 程 来 完成 : 


>>> dataSet = [transDict[key] for key in transDict.keys()] 


上 面 这 样 的 做 法 会 去 掉 键 值 ( 即 政客 ) 的 名 字 。 不 过 这 无 关 紧 要 ， 这 些 信 
息 不 是 我 们 感 兴趣 的 内 容 。 我 们 感 兴趣 的 是 元 素 项 以 及 它们 之 间 的 关联 关 
系 。 接 下 来 将 使 用 Apriori 算 法 来 挖 据 上 面 例子 中 的 频繁 项 集 与 天 联 规则 。 
115.2 ”测试 算法 : 基于 美国 国会 投票 记录 挖 所 关联 规则 


0 UP ERI e eee 
50%， 那 么 应 该 不 会 产生 太 多 的 频繁 项 集 


>>> L,suppData-apriori.apriori(dataSet, minSupport=0.5) 


>>> L 


[[frozenset([4]), frozenset([13]), frozenset([0]), frozenset([21])], 
[frozenset([13, 21])], []] 
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>>> L,suppData-apriori.apriori(dataSet, minSupport=0.3) 


>>> len(L) 


当 使 用 30% 的 支持 度 阐 值 时 ， 会 得 到 许多 频繁 项 集 ， 甚 至 可 以 得 到 包含 所 有 
7 个 元 素 项 的 6 个 频繁 集 。 


>>> L[6] 
[frozenset([0, 3, 7, 9, 23, 25, 26]), frozenset([0, 3, 4, 9, 23, 25, 26]),frozenset([ 


0, 3, 4, 7, 9, 23, 26]), frozenset([0, 3, 4, 7, 9, 23, 25]),frozenset([0, 4, 7, 9, 23 
, 25, 26]), frozenset([0, 3, 4, 7, 9, 25, 26])] 


AX SOLER TRZ BL RI DARK, qun] DEAE. T SORE BUS ARE 
则 。 首 先 将 最 小 可 信和 度 值 设 为 0.7: 


>>> rules = apriori.generateRules(L,suppData) 


这 样 会 产生 太 多 规则 ， 于 是 可 以 加 大 最 小 可 信和 度 值 。 
>>> rules = apriori.generateRules(L,suppData, minConf=0.95) 
frozenset([15]) --» frozenset([1]) conf: 0.961538461538 


frozenset([22]) --» frozenset([1]) conf: 0.951351351351 


frozenset([25, 26, 3, 4]) --» frozenset([0, 9, 7]) conf: 0.97191011236 


frozenset([0, 25, 26, 4]) --» frozenset([9, 3, 7]) conf: 0.950549450549 


继续 增加 可 信 度 值 : 
>>> rules = apriori.generateRules(L,suppData, minConf=0.99) 
frozenset([3]) --» frozenset([9]) conf: 1.0 
frozenset([3]) --» frozenset([0]) conf: 0.995614035088 
frozenset([3]) --» frozenset([0, 9]) conf: 0.995614035088 
frozenset([26, 3]) --» frozenset([0, 9]) conf: 1.0 


frozenset([9, 26]) --» frozenset([0, 7]) conf: 0.957547169811 


frozenset([23, 26, 3, 4, 7]) --» frozenset([0, 9]) conf: 1.0 
frozenset([23, 25, 3, 4, 7]) --> frozenset([0, 9]) conf: 0.994764397906 


frozenset([25, 26, 3, 4, 7]) --» frozenset([0, 9]) conf: 1.0 


上 面 给 出 了 一 些 有 趣 的 规则 。 如 果 要 找 出 每 一 条 规则 的 含义 ， 则 可 以 将 规 
则 号 作为 索引 输入 到 itemMeaning 中 


>>> itemMeaning[26] 

'Prohibiting the Use of Federal Funds for NASCAR Sponsorships -- Nay' 
>>> itemMeaning[3] 

'Prohibiting Federal Funding of National Public Radio -- Yea' 


>>> itemMeaning[9] 


'Repealing the Health Care Bill -- Yea' 


在 图 11-6 中 列 出 了 下 面 的 几 条 规则 :，{3} — (0) ^ (22) > (11 (9,26) > 
{0,7} ° 


+ 
If Then 可 信和 度 
Prohibiting Federal Funding of ma > 0 
National Public Radio — Yea Republican 99.6% 
Prohibiting Use of Federal 
Funds For Planned = Democrat 95.1% 


Parenthood -- Nay 


Prohibiting the Use of Federal 


Funds for NASCAR Republican 


Sponsorships — Nay And 9 5 89 7 
" 0 
n And ] Terminating the Home 
Repealing the Health Care Bill Affordable Modification 
-- Yea 


Program -- Yea 


图 11-6 RERBLI{3} (0) ` {22}-9{1} {9,26} (0,7) B) CB AT fis BE 


数据 中 还 有 更 多 有 趣 或 娱乐 性 十 足 的 规则 。 还 记得 前 面 最 早 使 用 的 支持 度 
30% 吗 ? 这 意味 着 这 些 规 则 至 少 出 现在 30% 以 上 的 记录 中 。 由 于 至 少 会 在 
30% 的 投票 记录 中 看 到 这 些 规 则 ， 所 以 这 是 很 有 意义 。 对 于 {3} > {0} 这 条 
规则 ， 在 99.6% 的 情况 下 是 成 立 的 。 我 真希 望 在 这 类 事情 上 赌 一 把 。 


11.6 “示例 : 发 现 毒 蘑菇 的 相似 特征 


有 时 我 们 并 不 想 寻 找 所 有 频繁 项 集 ， 而 只 对 包含 某 个 特定 元 素 项 的 项 集 感 
兴趣 。 在 本 章 这 个 最 后 的 例子 中 ， 我 们 会 寻找 毒 蘑 妇 中 的 一 些 公共 特征 ， 
利用 这 些 特征 藉 能 避免 吃 到 那些 有 毒 的 蘑 站 。UCI 的 机 器 学 习 数 据 集合 中 有 
一 个 关于 肋 形 蘑菇 的 23 种 特征 的 数据 集 ， 每 一 个 特征 都 包含 一 个 标 称 数据 
值 。 我 们 必须 将 这 些 标 称 值 转化 为 一 个 集合 ， 这 一 点 与 前 面 投票 例子 中 的 
做 法 类 似 。 和 对 运 的 是 ， 已 经 有 人 已 经 做 好 了 这 种 转换 :。Roberto Bayardo 对 
UCI 芯 辣 数 据 集 进行 了 解析 ， 将 每 个 芯 辣 样本 转换 成 一 个 特征 集合 。 其 中 ， 
枚 举 了 每 个 特征 的 所 有 可 能 值 ， 如 果 某 个 样本 包含 特征 ， 那 么 该 特征 对 应 
的 整数 值 被 包含 数据 集中 。 下 面 我 们 近 距 离 看 看 该 数据 集 。 它 在 源 数 据 集 
合 中 是 一 个 名 为 mushroom.dat 的 文件 。 下面 将 它 和 原始 数据 集 
http://archive.ics.uci.edu/ml/machine-learning-databases/mushroom/agaricus- 
lepiota.data 进行 比较 。 


1. “Frequent Itemset Mining Dataset Repository” retrieved July 10, 2011; http://fimi.ua.ac.be/data/_. 


文件 mushroom.dat 的 前 几 行 如 下 : 


139 13 23 25 34 36 38 40 52 54 59 63 67 76 85 86 90 93 98 107 113 
2 3 9 14 23 26 34 36 39 40 52 55 59 63 67 76 85 86 90 93 99 108 114 


249 15 23 27 34 36 39 41 52 55 59 63 67 76 85 86 90 93 99 108 115 


第 一 个 特征 表示 有 毒 或 者 可 食用 。 如 有 果 某 样本 有 毒 ， 则 值 为 2。 如 宁可 食 
用 TH oR MRE Be ae PATEK, HZNFRRISEBUIE, ol) AS ER 
3-82 ZI ° 


为 了 找到 毒 蘑菇 中 存在 的 公共 特征 ， 可 以 运行 Apriori 算 法 来 寻找 包含 特征 
值 为 2 的 频繁 项 集 。 


>>> mushDatSet = [line.split() for line in 


open('mushroom.dat').readlines()] 


在 该 数据 集 上 运行 Apriori 算 法 : 


>>> L,suppData-apriori.apriori(mushDatSet, minSupport=0.3) 


在 结果 中 可 以 搜索 包 合 有 毒 特征 值 2 的 频繁 项 集 : 
>>> for item in L[1]: 


if item.intersection('2'): print item 


frozenset(['2', '59']) 
frozenset(['39', '2']) 
frozenset(['2', '67']) 


frozenset(['2', '34']) 


frozenset(['2', '23']) 


也 可 以 对 更 大 的 项 集 来 重复 上 述 过 程 : 
>>> for item in L[3]: 


if item.intersection('2'): print item 


frozenset(['63', '59', '2', '93']) 


frozenset(['39', '2', '53', '34']) 


N 


frozenset([' '59', '23', '85']) 


N 


frozenset(['2' 


'59', '90', '85']) 


frozenset(['39', '2', '36', '34']) 


frozenset(['39', '63', '2', '85']) 


frozenset(['39', '2', '90', '85']) 


frozenset(['2', '59', '90', '86']) 


接 下 来 你 需要 观察 一 下 这 些 特征 ， 以 便 知 道 了 解 野 蘑 菇 的 那些 方面 。 如 果 
看 到 其 中 任何 一 个 特征 ， 那 么 这 些 蘑 天 就 不 要 吃 了 。 当 然 ， 最 后 还 要 声明 
一 下 : 尽管 上 述 这 些 符 征 在 毒 蘑 区 中 很 普遍 ， 但 是 没有 这 些 特 征 并 不 意味 
该 蘑菇 台 是 可 食用 的 。 如 采 吃 错 了 蘑菇 ， 你 可 能 会 因此 而 起 命 。 


11.7 本 章 小 结 


关联 分 析 是 用 于 发 现 大 数据 集中 元 素 间 有 趣 关 系 的 一 个 工具 集 ， 可 以 采用 
两 种 方式 来 量化 这 些 有 趣 的 天 系 。 第 一 种 方式 是 使 用 频 党 项 集 ， 它 会 给 出 
经 常 在 一 起 出 现 的 元 素 项 。 第 二 种 方式 是 关联 规则 ， 每 条 关联 规则 意味 着 
元 素 项 之 间 的 “如 采 …… 那 么 ”关系 。 


发 现 元 素 项 间 不 同 的 组 合 是 个 十 分 耗 时 的 任务 ， 不 可 避免 需要 大 量 昂贵 的 
计算 资源 ， 这 束 需 要 一 些 更 智能 的 方法 在 合理 的 时 间 艺 围 内 找到 频 迷 项 
集 。 能 够 实现 这 一 目标 的 一 个 方法 是 Apriori 算 法 ， 它 使 用 Apriori 原 理 来 减 
少 在 数据 库 上 进行 检查 的 集合 的 数目 。Apriori 原 理 是 说 如 果 一 个 元 素 项 是 
不 频 系 的 ， 那 么 那些 包含 该 元 素 的 超 集 也 十 不 频 系 的 。Apriori 算 法 从 单元 
素 项 集 开 始 ， 通 过 组 合 满足 最 小 支持 度 要 求 的 项 集 来 形成 更 大 的 集合 。 文 
性 度 用 来 度量 一 个 集合 在 原始 数据 中 出 现 的 频率 。 

关联 分 析 可 以 用 在 许多 不 同 物品 上 。 商 店 中 的 商品 以 及 网 站 的 访问 页 面 征 
其 中 比较 常见 的 例子 。 关 联 分 析 也 曾 用 于 查看 选举 人 及 法 官 的 投票 历史 。 
每 次 增加 频 迷 项 集 的 大 小 ，Apriori 算 法 都 会 重 狐 扫 描 丈 个 数据 集 。 当 数据 
集 很 大 时 ， 这 会 显著 降低 频繁 项 集 发 现 的 速度 。 下 一 革 会 介绍 FP-growth 算 
法 '， 和 Apriori 算 法 相 比 ， 该 算法 只 需要 对 数据 库 进 行 两 次 过 历 ， 能 够 显 才 
加 快 发 现 繁 项 集 的 速度 。 


1.H.Li, Y. Wang, D. Zhang, M. Zhang, and E. Chang, “PFP: Parallel FP-Growth for Query Recommendation," RecSys 2008, Proceedings of the 2008 ACM Conference on Recommen der 


Systems; http://portal.acm.org/citation.cfm?id=1454027 . 


第 12 章 ”使 用 FP-growth 算 法 来 高 效 发 现 
频繁 项 集 


本 章 内 容 


© 发 现 事 务 数据 中 的 公共 模式 
。 FP-growth 算 法 
© 发 现 Twitter 源 中 的 共 现 词 


尔 用 过 搜索 引擎 吗 ? 输入 一 个 单词 或 者 单词 的 一 部 分 ， 搜 索引 擎 融会 目 动 
补 全 查询 词 项 。 用 户 甚至 事先 都 不 知道 搜索 引擎 推荐 的 东西 是 否 存 在 ， 反 
而 会 去 查找 推荐 词 项 。 我 也 有 过 这 样 的 经 历 ， 当 我 输入 以 “为 什么 "开始 的 
查询 时 ， 有 了 时 会 出 现 一 些 十 分 滑稽 的 推荐 结 采 。 为 了 给 出 这 些 推荐 查询 词 
项 ， 搜 索引 擎 公司 的 研究 人 员 使 用 了 本 章 将 要 介绍 的 一 个 算法 。 他 们 通过 
查看 互联 网 上 的 用 词 来 找 出 经 常 在 一 块 出 现 的 词 对 '。 这 需要 一 种 高 效 发 现 
频繁 集 的 方法 。 


1. J. Han, J. Pei, Y. Yin, R. Mao, “Mining Frequent Patterns without Candidate Generation: A Frequent-Pattern Tree Approach," Data Mining and Knowledge Discovery 8 (2004), 53-87. 


本 章 会 在 上 一 章 讨 论 话题 的 基础 上 进行 扩展 ， 将 给 出 一 个 非常 好 的 频 索 项 
集 发 现 算法 。 该 算法 称 作 FP-growth， 它 比 上 一 章 讨论 的 Apriori 算 法 要 快 
它 基 于 Apriori 构 建 ， 但 在 完成 相同 任务 时 采用 了 一 些 不 同 的 技术 。 这 里 的 
任务 是 将 数据 集 存储 在 一 个 特定 的 称 作 FP 树 的 结构 之 后 发 现 频繁 项 集 或 者 
频繁 项 对 ， 即 常 在 一 块 出 现 的 元 素 项 的 集合 FP 树 。 这 种 做 法 使 得 算法 的 执 
行 速 度 要 快 于 Apriori， 通 常 性 能 要 好 两 个 数量 级 以 上 。 


上 一 章 我 们 讨论 了 从 数据 集中 获取 有 趣 信息 的 方法 ， 最 常用 的 两 种 分 别 是 
频繁 项 集 与 关联 规则 。 第 11 章 中 介绍 了 发 现 频繁 项 集 与 关键 规则 的 算法 ， 
本 章 将 继续 关注 发 现 频 繁 项 集 这 一 任务 。 我 们 会 深入 探索 该 任务 的 解决 方 
法 ， 并 应 用 FP-growth 算 法 进行 处 理 ， 该 算法 能 够 更 有 效 地 挖掘 数据 。 这 种 
算法 虽然 能 更 为 高 效 地 发 现 频繁 项 集 ， 但 不 能 用 于 发 现 关 联 规则 。 
FP-growth 算 法 只 需要 对 数据 库 进 行 两 次 扫描 ， 而 Apriori 算 法 对 于 每 个 潜在 
的 频繁 项 集 都 会 扫描 数据 集 判 定 给 定 模 式 是 否 频 泪 ， 因 此 FP-growth 算 法 的 
速度 要 比 Apriori 算 法 快 。 在 小 规模 数据 集 上 ， 这 不 是 什么 问题 ， 但 当 处 理 
更 大 数据 集 时 ， 就 会 产生 较 大 问题 。FP-growth 只 会 扫描 数据 集 两 次 ， 它 发 
现 频 繁 项 集 的 基本 过 程 如 下 : 


1. 构建 FP 树 
2. 从 FP 树 中 控 所 频繁 项 集 


下 面 完 讨论 FP 树 的 数据 结构 ， 然 后 看 一 下 如 何 用 该 结构 对 数据 集 编码 。 最 


后 ， 我 们 会 介绍 两 个 例子 ， 一 个 是 从 Twitter 文本 流 中 挖掘 常用 词 ， 另 一 个 从 
网 民 网 页 浏览 行为 中 挖掘 常见 模式 。 


12.1 FP 树 : 用 于 编码 数据 集 的 有 效 方式 
FP-growth 算 法 
优点 : 一 般 要 快 于 Apriori 
缺点 : 实现 比较 困难 ， 在 某 些 数据 集 上 性 能 会 下 降 
适用 数据 类 型 : 标 称 型 数据 


FP-growth 算 法 将 数据 存储 在 一 种 称 为 FP 树 的 紧凑 数据 结构 中 。FP 代 表 频 繁 
模式 (Frequent Pattern) 。 一 棵 FP 树 看 上 去 与 计算 机 科学 中 的 其 他 树 结构 


N 
o 


— 


类 似 ， 但 是 它 通过 链接 (link) 来 连接 相似 元 素 ， 被 连 起 来 的 元 素 项 可 以 看 
成 一 个 链表 。 图 12-1 给 出 了 FP 树 的 一 个 例子 。 


ea 一 棵 FP 树 ， 看 上 去 和 一 般 的 树 没什么 两 样 ， 包 含 着 连接 相似 节点 


同 搜索 树 不 同 的 是 ， 一 个 元 素 项 可 以 在 一 棵 FP 树 中 出 现 多 次 。FP 树 会 存储 
项 集 的 出 现 频 率 ， 而 每 个 项 集会 以 路 径 的 方式 存储 在 树 中 。 存 在 相似 元 素 
的 集合 会 共享 树 的 一 部 分 。 只 有 当 集 合 之 间 完 全 不 同时 ， 树 才 会 分 又 。 树 
节点 上 给 出 集合 中 的 单个 元 素 及 其 在 序列 中 的 出 现 次 数 ， 路 径 会 给 出 该 序 


列 的 出 现 次 数 。 上 面 这 一 切 听 起 来 可 能 有 点 让 人 迷糊 ， 不 过 不 用 担心 ， 稍 
后 就 会 介绍 FP 树 的 构建 过 程 。 

相似 项 之 间 的 链接 即 节 点 链接 (nodelink) ， 用 于 快速 发 现 相 似 项 的 位 
置 。 为 了 打消 读者 的 疑惑 ， 下 面 通过 一 个 简单 例子 来 说 明 。 表 12-1 给 出 了 用 
于 生成 图 12-1 中 所 示 FP 树 的 数据 。 


表 12-1 用 于 生成 图 12-1 中 FP 树 的 事务 数据 样 例 


事务 ID ”事务 中 的 元 素 项 


006 y, Z, X, e, q, S, t, m 


在 图 12-1 中 ， 元 素 项 z 出 现 了 5 次 ， 集 合 {pz} 出 现 了 1 次 。 于 是 可 以 得 出 结 
ib: z 一 定 是 自己 本 里 或 者 和 其 他 符号 一 起 出 现 了 4 次 。 我 们 再 看 下 z 的 其 他 
可 能 性 。 和 集合 {t,s,y,x,z} 出 现 了 2 次 ， 集 合 {tny,x,z} 出 现 了 1 次 。 元 素 项 z 的 右 
边 标 的 是 5， 表 示 z 出 现 了 5 次 ， 其 中 刚才 已 经 给 出 了 4 次 出 现 ， 所 以 它 一 定 
单独 出 现 过 1 次 。 通 过 观察 表 12-1 看 看 刚才 的 结论 是 否 正确 。 前 面 提 到 
{tnyxz} 只 出 现 过 1 次 ， 在 事务 数据 集中 我 们 看 到 005 号 记录 上 却 是 
{y,1,x,z,q,t.p} ° JBA, qp ERIL TIE? 


这 里 使 用 第 11 章 给 出 的 支持 度 定义 ， 该 指标 对 应 一 个 最 小 阔 值 ， 低 于 最 小 
立 值 的 元 素 项 被 认为 是 不 频繁 的 。 如 果 将 最 小 支持 度 设 为 3， 然 后 应 用 频繁 
项 分 析 算 法 ， 束 会 获得 出 现 3 次 或 3 次 以 上 的 项 集 。 上 面 在 生成 图 12-1 中 的 
FP 树 时 ， 使 用 的 最 小 文 持 度 为 3， 因 此 q 和 p 并 没有 出 现在 最 后 的 树 中 。 


FP-growth 算 法 的 工作 流程 如 下 。 首 先 构 建 FP 树 ， 然 后 利用 它 来 控 气 频繁 项 
集 。 为 构建 FP 树 ， 需 要 对 原始 数据 集 扫描 两 裔 。 第 一 授 对 所 有 元 素 项 的 出 
现 次 数 进行 计数 。 记 住 第 11 章 中 给 出 的 Apriori 原 理 ， 即 如 果 某 元 素 是 不 频 
党 的 ， 那 么 包含 该 元 素 的 超 集 也 是 不 频繁 的 ， 所 以 就 不 需要 考虑 这 些 超 
x a WAHR EM, E S HE TD 
EKTA ° 


FP-growth 的 一 般 流 程 
1. 收集 数据 : 使 用 任意 方法 。 


2. 准备 数据 : 由 于 存储 的 是 集合 ， 所 以 需要 离散 数据 。 如 果 要 处 理 连 续 
需要 将 它们 量化 为 离散 值 。 
分 析 数 据 : 使 用 任意 方法 。 

4 AAE, E AEPA HARTIEI 

5. 测试 算法 没有 测试 过 程 。 

6. 使 用 算法 : 可 用 于 识别 经 营 出 现 的 元 素 项 ， 从 而 用 于 制定 决策 、 推 荐 
元 系 或 进行 预测 等 应 用 中 。 


12.2 ”构建 FP 树 


在 第 二 次 扫描 数据 集 时 会 构建 一 棵 FP 树 。 为 构建 一 棵 树 ， 需 要 一 个 容器 来 
保存 树 。 


12.2.1 创建 FP 树 的 数据 结构 


本 章 的 FP 树 要 比 书 中 其 他 树 更 加 复杂 ， 因 此 要 创建 一 个 类 来 保存 树 的 每 一 
个 和 节点。 创建 文件 fpGrowth.py 并 加 入 下 列 程序 中 的 代码 。 


程序 清单 12-1 FP 树 的 类 定义 


class treeNode: 


def | init (self, nameValue, numOccur, parentNode): 


self.name - nameValue 


self.count - numOccur 


self.nodeLink = None 


self.parent = parentNode 


self.children = {} 


def inc(self, numOccur): 


self.count += numOccur 


def disp(self, ind-1): 


print ' '*ind, self.name, ' ', self.count 


for child in self.children.values(): 


child.disp(ind+1) 


上 面 的 程序 给 出 了 FP 树 中 节操 的 类 定义 。 类 中 包含 用 于 存放 市 点 名 字 的 变 


量 和 1 个 计数 值 ， 


nodeLink 变量 用 于 链接 相似 的 元 素 项 (参考 图 12-1 中 的 虚 
线 ) 。 类 中 还 使 用 了 父 变量 parent 来 指向 当前 节点 的 父 节 点 。 


通常 情况 下 


并 不 需要 这 个 变量 ， 因 为 通常 是 从 上 往 下 和 迭代 访问 节点 的 。 本 章 后 面 的 内 


容 中 需要 根据 给 定 叶子 节点 上 漳 整 棵 树 ， 这 时 就 需要 指向 父 届 点 的 指针 。 


最 后 ， 类 中 还 包含 一 个 空 字典 变量 ， 用 于 存放 市 点 的 子玉 点 。 
变量 增加 给 定 值 ， 而 男 


程序 清单 12-1 中 包括 两 个 方法 ， 其 中 inc() count 7 


一 个 方法 disp() 用 于 将 树 以 文本 形式 显示 。 
要 的 ， 但 是 它 对 于 调试 非常 有 用 。 


运行 一 下 如 下 代码 : 
>>> import fpGrowth 


>>> rootNode = fpGrowth.treeNode('pyramid',9, None) 


文 会 创建 树 中 的 一 个 单 节 上 后 。 接 下 来 为 其 增加 一 个 子 市 所 : 


>>> rootNode.children['eye']-fpGrowth.treeNode('eye', 13, None) 


JJ BA. WA: 
>>> rootNode.disp() 


pyramid 9 


后 者 对 于 树 构 建 来 说 并 不 是 必 


eye 13 


再 添加 一 个 节点 看 看 两 个 子 世 点 的 展示 效 打 : 
>>> rootNode.children['phoenix']-fpGrowth.treeNode('phoenix', 3, None) 
>>> rootNode.disp() 
pyramid 9 
eye 13 


phoenix 3 


现在 FP 树 所 需 数 据 结构 已 经 建 好 ， 下 面 就 可 以 构建 FP 树 了 。 
12.2.2 ”构建 FP 树 
除了 图 12-1 给 出 的 FP 树 之 外 ， 还 需要 一 个 头 指针 表 来 指向 给 定 类 型 的 第 一 


个 实例 。 利 用 头 指针 表 ， 可 以 快速 访问 FP 树 中 一 个 给 定 类 型 的 所 有 元 素 。 
图 12-2 给 出 了 一 个 头 指针 表 的 示意 图 。 


带头 指针 表 的 FP 树 ， 头 指针 表 作为 一 个 起 始 指针 来 发 现 相 似 元 素 


这 里 使 用 一 个 字典 作为 数据 结构 ， 来 保存 头 指针 表 。 除 了 存放 指针 外 ， 头 
8 针 表 还 可 以 用 来 保存 FP 树 中 每 类 元 素 的 总 数 。 


第 一 次 过 历数 据 集会 获得 每 个 元 素 项 的 出 现 频 率 。 接 下 来 ， 去 挥 不 满足 最 
小 支持 度 的 元 素 项 。 再 下 一 步 构建 FP 树 。 在 构建 时 ， 读 入 每 个 项 集 并 将 其 
添加 到 一 条 已 经 存在 的 路 径 中 。 如 果 该 路 径 不 存在 ， 则 创建 一 条 新 路 径 。 
每 个 事务 束 是 一 个 无 序 集合 。 假 设 有 集合 {z,x,y} 和 {y,z,r}， 那 么 在 FP 树 中 ， 
相同 项 会 只 表示 一 次 。 为 了 解决 此 问题 ， 在 将 集合 添加 到 树 之 前 ， 需 要 对 
每 个 集合 进行 排序 。 排 序 基 于 元 素 项 的 绝对 出 现 频 率 来 进行 。 使 用 图 12-2 中 
E EE E 


表 12-2 ”将 非 频 繁 项 移 除 并 且 重 排序 后 的 事务 数据 集 


事务 ID — 事务 中 的 元 素 项 ”过滤 及 重 排序 后 的 事务 


在 对 事务 记录 过 滤 和 排序 之 后 ， 束 可 以 构建 FP 树 了 。 从 空 集 (符号 为 g) 开 
始 ， 向 其 中 不 断 添加 频繁 项 集 。 过 滤 、 排 序 后 的 事务 依次 添加 到 树 中 ， 如 
果树 中 已 存在 现 有 元 素 ， 则 增加 现 有 元 素 的 值 ， 如 采 现 有 元 素 不 存在 ， 则 
癌 树 添 加 一 个 分 术 。 对 表 12-2 前 两 条 事务 进行 添加 的 过 程 显 示 在 图 12-3 中 。 


图 12-3 ”FP 树 构 建 过 程 的 一 个 示意 图 ， 图 中 给 出 了 使 用 表 12-2 中 数据 构建 
FP 树 的 前 两 步 。 
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接 下 来 我 们 通过 代码 来 实现 上 述 过 程 。 打 开 fpGrowth.py 文件 ， 加 入 下 面 的 


代码 。 


程序 清单 12-2 FPA 


def createTree(dataSet, minSup-1): 


headerTable = {} 


for trans in dataSet 


for item in trans: 


headerTable[item] = headerTable.get(item, 0) + dataSet[trans] 


#@ (以 下 三 行 ) 移 除 不 满足 最 小 支持 ) 


for k in headerTable.keys(): 


度 的 元 素 项 


if headerTable[k] < minSup: 


del(headerTable[k]) 


fregItemSet = set(headerTable.keys()) 


#0 u^ 


RIZA 


元 素 项 满足 要 求 ， 则 退 昌 


Li 


if len(freqItemSet) == 0: return None, None 


for k in headerTable: 


headerTable[k] = [headerTable[k], None] 


retTree - treeNode('Null Set', 1, None) 


for tranSet, count in dataSet.items(): 


localD = {} 


#0 (以 下 三 行 ) 根据 全 局 频率 对 每 个 事务 中 的 元 素 进行 排序 


for item in tranSet: 


if item in freqItemSet: 


localD[item] - headerTable[item][ 


if len(localD) » 0: 


orderedItems = [v[0] for v in sorted(localD.items(),key-lambda p: p[1], r 


everse-True)] 


#@ 使 用 排序 后 的 频率 项 集 对 树 进行 填充 


updateTree(orderedItems, retTree, headerTable, count) 


return retTree, headerTable 


def updateTree(items, inTree, headerTable, count): 


if items[0] in inTree.children: 


inTree.children[items[0]].inc(count) 


else: 


inTree.children[items[0]] = treeNode( 


if headerTable[items[0]][1] -- None: 


headerTable[items[0]][1] = inTree. 


else: 


updateHeader(headerTable[items[0]][1], inTree.children[items[0]]) 


if len(items) » 1: 


4e x FOTATA AH updateTreekiži 


updateTree(items[1::], inTree.children[items[0]],headerTable, count) 


def updateHeader(nodeToTest, targetNode): 
while (nodeToTest.nodeLink != None): 
nodeToTest = nodeToTest.nodeLink 


nodeToTest.nodeLink = targetNode 


上 述 代 码 中 包含 3 个 函数 。 第 一 个 函数 createTree() 使 用 数据 集 以 及 最 小 支 
持 度 作 为 参数 来 构建 FP 树 。 树 构建 这 程 中 会 人 帝 历 数据 集 两 次 。 第 一 次 瑶 历 
扫 摘 数据 集 并 统计 每 个 元 素 项 出 现 的 频 度 。 这 些 信息 被 存储 在 头 指 针 表 

中 。 接 下 来 ， 扫 描 头 指针 表 删 掉 那 些 出 现 次 数 少 于 minsup 的 项 @。 如 果 所 
有 项 都 不 频繁 ， 束 不 需要 进行 下 一 步 处 理 @。 接 下 来 对头 指针 表 稍 加 扩 
展 以 便 可 以 保存 计数 值 及 指 癌 每 种 类 型 第 一 个 元 素 项 的 指针 。 然 后 创建 只 
包含 空 集合 GB 的 根 节点 。 最 后 ， 青 一 次 所 历数 据 集 ， 这 次 只 考虑 那些 频繁 项 
目 。 这 些 项 已 经 如 表 12-2 所 示 那 样 进行 了 排序 ， 然 后 调用 updateTree() 方法 
o^ 接 下 来 讨论 函数 updateTree() B 


为 了 让 FP 树 生长 :， 需 调用 updateTree ， 其 中 的 输入 参数 为 一 个 项 集 。 图 
12-3 给 出 了 updateTree() 中 的 执行 细节 。 该 函数 首先 测试 事务 中 的 第 一 个 元 
素 项 是 否 作为 子 节 点 存在 。 如 果 存 在 的 话 ， 则 更 新 该 元 素 项 的 计数 ， 如 果 
不 存在 ， 则 创建 一 个 新 的 treeNode 并 将 其 作为 一 个 子 节 点 添加 到 树 中 。 这 
时 ， 头 指针 表 也 要 更 新 以 指向 新 的 节点 。 更 新 头 指针 表 需 要 调用 函数 
updateHeader() , 接 下 来 会 讨论 该 函数 的 细 耶 ° updateTree() 完成 的 最 后 
一 件 事 是 不 断 迭 代 调 用 目 身 ， 每 次 调用 时 会 去 掉 列 表 中 第 一 个 元 素 @。 


1. 这 就 是 FP-growth 中 的 growth (生长 ) 一 词 的 来 源 。 


程序 清单 12-2 中 的 最 后 一 个 函数 是 updateHeader() , 它 确保 节点 链接 指向 树 
中 该 元 素 项 的 每 一 个 实例 。 从 头 指针 表 的 nodeLink 开始 ， 一 直 沿 着 
nodeLink 直到 到 达 链 表 末 尾 。 这 了 驶 是 一 个 链表 。 当 处 理 树 的 时 候 ， 一 种 很 
自然 的 反应 就 是 迄 代 完 成 每 一 件 事 。 当 以 相同 方式 处 理 链表 时 可 能 会 遇 到 
一 些 问题 ， 原 因 是 如 有 果 链 表 很 长 可 能 会 遇 到 迭代 调用 的 次 数 限制 。 


在 运行 上 例 之 前 ， 还 需要 一 个 真正 的 数据 集 o 这 可 以 从 本 书 附 市 的 代码 库 

中 获得 ， 或 者 直接 手工 输入 。1loadsimpDat() 落 数 会 返回 一 个 事务 列表 。 这 
和 表 12-1 中 的 事务 相同 。 后 面 构建 树 时 会 使 用 createTree() HBX, T TER A 
的 输入 数据 类 型 不 是 列表 。 其 需要 的 是 一 部 字典 ， 其 中 项 集 为 字典 中 的 

HE 而 频率 为 每 个 键 对 应 的 取 值 。 createInitset() 用 于 实现 上 述 从 列表 到 
字典 的 类 型 转换 过 程 。 将 下 列 代码 添加 到 fpGrowth.py 文件 中 。 


程序 清单 12-3 ”简单 数据 集 及 数据 包装 器 


def loadSimpDat(): 


simpDat - [['r', 'z', 'h', 'j', 'p'], 


return simpDat 


def createInitSet(dataSet): 


retDict = {} 


for trans in dataSet: 


retDict[frozenset(trans)] = 1 


return retDict 


好 了 了， 下面 看 看 实际 的 效果 。 将 程序 清单 12-3 中 的 代码 加 入 文件 
fpGrowth.py 之 后 ， 在 Python 提示 符 下 输入 命令 : 


>>> reload(fpGrowth ) 


«module 'fpGrowth' from 'fpGrowth.py'» 


自 完 ， 导 入 数据 库 实例 : 
>>> simpDat = fpGrowth.loadSimpDat() 


>>> simpDat 


['z'], pU CX 'n!, 'g!, 's'], ['y', het '"X!, "zu 'q', Eine 'p'], 


接 下 来 为 了 函数 createTree() ， 需 要 对 上 面 的 数据 进行 格式 化 处 理 : 
>>> initSet = fpGrowth.createInitSet(simpDat ) 


>>> initSet 


(frozenset(['e', 'm', 'q', 's', 't', 'y', 'x', 'z']): 1, frozenset(['x',' 's', 'r', 'o' 
'n']): 1, frozenset(['s', 'u', 't', 'w', 'v', 'y', 'x','z']): 1, frozenset(['q', 'p 
', 'r', ty 'x', 'z']): 1,frozenset(['h', 'r', 'z', 'p', 'j']): 1, frozenset([' 


z']): 1j 


于 是 可 以 通过 如 下 命令 创建 FP 树 : 


>>> myFPtree, myHeaderTab = fpGrowth.createTree(initSet, 3) 


使 用 disp() 方法 给 出 树 的 文本 表示 结 采 : 
>>> myFPtree.disp() 


Null Set 1 


上 面 给 出 的 是 元 素 项 及 其 对 应 的 频率 计数 值 ， 其 中 每 个 缩 进 表 示 所 处 的 树 
的 深度 。 读 者 可 以 验证 一 下 这 柠 树 与 图 12-2 中 所 示 的 树 是 否 等 价 。 


现在 我 们 已 经 构建 了 FP 树 ， 接 下 来 吏 使 用 它 进 行 频 党 项 集 挖 握 。 


12.3 ”从 一 棵 FP 树 中 挖 据 频 签 项 集 


实际 上 ， 到 现在 为 止 大 部 分 比较 困难 的 工作 已 经 处 理 完 了 。 接 下 来 写 的 代 
码 不 会 再 像 12.2 节 那样 多 了 。 有 了 FP 树 之 后 ， 就 可 以 抽取 频繁 项 集 了 。 这 里 
的 思路 与 Apriori 算 法 大 致 类 似 ， 首 先 从 单元 素 项 集合 开始 ， 然 后 在 此 基础 
上 逐步 构建 更 大 的 集合 。 当 然 这 里 将 利用 FP 树 来 做 实现 上 述 过 程 ， 不 再 需 
要 原始 数据 集 了 。 


从 FP 树 中 抽取 频 蛇 项 集 的 三 个 基本 步 又 如 下 : 


1. 从 FP 树 中 获得 条 件 模 式 基 ; 
2. 利用 条 件 模 式 基 ， 构 建 一 个 条 件 FP 树 ; 
3. 迭代 重复 步骤 1 和 步骤 2， 直 到 树 包 含 一 个 元 素 项 为 止 。 


接 下 来 重点 关注 第 1 步 ， 即 寻找 条 件 模式 基 的 过 程 。 之 后 ， 为 每 一 个 条 件 模 
式 基 创建 对 应 的 条 件 FP 树 。 最 后 需要 构造 少许 代码 来 封装 上 述 两 个 函数 ， 
并 从 FP 树 中 获得 频繁 项 集 。 


12.3.1 抽取 条 件 模式 基 


首先 从 上 一 节 发 现 的 已 经 保存 在 头 指针 表 中 的 单个 频繁 元 素 项 开始 。 对 于 
每 一 个 元 素 项 ， 获 得 其 对 应 的 条 件 模 式 基 (conditional pattern base) 。 条 件 
模式 基 是 以 所 查找 元 素 项 为 结尾 的 路 径 集合 。 每 一 条 路 径 其 实 都 是 一 条 前 
缀 路 径 (prefix path) 。 简 而 言 之 ， 一 条 前 绥 路 径 是 介 于 所 查找 元 素 项 与 树 
根 方 点 之 间 的 所 有 内 容 。 

回 到 图 12-2， 符 号 1 的 前 级 路 径 是 {x,s}、{z,x,y} 和 {z}。 每 一 条 前 缀 路 径 都 与 
一 个 计数 值 天 联 。 该 计数 值 等 于 起 始 元 素 项 的 计数 值 ， 该 计数 值 给 了 每 条 
路 径 上 r 的 数目 。 表 12-3 列 出 了 上 例 当 中 每 一 个 频繁 项 的 所 有 前 级 路 人 笃 。 


表 12-3 ”每 个 频繁 项 的 前 缀 路 径 


频繁 项 前 缀 路 径 


{}5 


{x,s}1, {z,x,y}1, {z}1 


{z}3, 01 
y [zx)3 
(xy2, {x}1 


t (zx,y5)2, {z,x,y,r}1 


前 级 路 径 将 被 用 于 构建 条 件 FP 树 ， 但 是 现在 暂时 先 不 需要 考虑 这 件 事 。 为 
了 获得 这 些 前 绥 路 径 ， 可 以 对 树 进 行 穷 举 式 搜 索 ， 直 到 获得 想 妥 的 频 党 项 
为 止 ,或 者 使 用 一 个 更 有 效 的 方法 来 加 速 搜 索 过 程 。 可 以 利用 先前 创建 的 
头 指针 表 来 得 到 一 种 更 有 效 的 方法 。 头 指针 表 包 含 相同 类 型 元 素 链 表 的 起 
台 指 针 。 一 旦 到 达 了 每 一 个 元 素 项 ， 融 可 以 上 漳 这 株 树 直到 根 节 点 为 止 。 


人 


程序 清单 12-4 ”发 现 以 给 定 元 素 项 结尾 的 所 有 路 径 的 画 数 


def ascendTree(leafNode, prefixPath): 


#0 iA EMBER 


if leafNode.parent != None: 


prefixPath.append(leafNode.name) 


ascendTree(leafNode.parent, prefixPath) 


def findPrefixPath(basePat, treeNode): 


condPats = {} 


while treeNode != None: 


prefixPath = [] 


ascendTree(treeNode, prefixPath) 


if len(prefixPath) > 1: 


condPats[frozenset(prefixPath[1:])] = treeNode.count 


treeNode - treeNode.nodeLink 


return condPats 


ER HAREA T 2928 EUR TAE BL AR TER dE, OHI 
Hira Sm & XE JUR DAT TI SRI TER ° ER REA 使 用 头 指针 表 来 
指 问 该 类 型 的 第 一 个 元 素 项 ， 该 元 素 项 也 会 链接 到 其 后 续 元 素 项 。 函 数 
findPrefixPath() 遍历 链表 直到 到 达 结 尾 。 每 过 到 一 个 元 素 项 都 会 调用 
ascendTree() 来 上 漳 FP 树 ， 并 收集 所 有 遇 到 的 元 素 项 的 名 称 @@。 该 列表 返 
回 之 后 添加 到 条 件 模 式 基 字典 condPats 中 。 


使 用 之 前 构建 的 树 来 看 一 下 实际 的 运行 效 采 : 


>>> reload(fpGrowth) 

«module 'fpGrowth' from 'fpGrowth.py'> 

>>> fpGrowth.findPrefixPath('x', myHeaderTab['x'][1]) 
(frozenset(['z']): 3} 

>>> fpGrowth.findPrefixPath('z', myHeaderTab['z'][1]) 
{} 

>>> fpGrowth.findPrefixPath('r', myHeaderTab['r'][1]) 


(frozenset(['x', 's']): 1, frozenset(['z']): 1,frozenset(['y', 'x', 'z']): 1} 


读者 可 以 检查 一 下 这 些 值 与 表 12-3 中 的 结果 是 否 一 致 。 有 了 条 件 模式 基 之 
后 ， 束 可 以 创建 条 件 FP 树 。 


12.3.2 ”创建 条 件 FP 树 


对 于 每 一 个 频繁 项 ， 部 要 创建 一 棵 条 件 FP 树 。 我 们 会 为 z、x 以 及 其 他 频 汉 
项 构建 条 件 树 。 可 以 使 用 刚才 发 现 的 条 件 模式 基 作 为 输入 数据 ， 并 通过 相 


同 的 建树 代码 来 构建 这 些 树 。 然 后， 我 们 会 递归 地 发 现 频 繁 项 、 发 现 条 件 
模式 基 ， 以 及 发 现 另外 的 条 件 树 。 学 个 例 了 来 次 ， 假定 为 频繁 项 t 创 建 一 个 

条 件 FP 树 ， 然 后 对 {t,y}、{t,x} 重 复 该 过 程 ， 元 素 项 t 的 条 pm 
过 程 如 图 12-4 所 示 2 


t 的 条 件 FP 树 


条 件 模 式 基 : [y;x;9;21:2, EIy.xr;z):1 
最 小 支持 度 = 3 
去 掉 : S&r 


Ø| L1 


MA Cy,x,z):2 WA (v,x, zz —— 
: J fy;x;zpil à 
— y:2 > y:3| 


[x:2| x:3 
图 12-4 t 的 条 件 FP 树 的 创建 过 程 。 最 初 树 以 空 集 作为 根 节点 。 接 下 来 ， 原 


始 的 集合 {y,x,s,z} 中 的 集合 {y,x,z} 被 添加 进来 。 因 为 不 满足 最 小 支持 度 要 
: FRSA IMAGER © FH, (y xz HA SS Ar (yox nz) PRSE EE 


在 图 12-4 中 ， 注 意 到 元 素 项 s 以 及 r 是 条 件 模 式 基 的 一 部 分 ， 但 是 它们 并 不 属 
于 条 件 FP 树 。 原 因 是 什么 ?如 果 讨 论 s 以 及 r 的 话 ， 它们 难道 不 是 频繁 项 吗 ? 
实际 上 单独 来 看 它们 都 是 频繁 项 ， 但 是 在 t 的 条 件 树 中 ， 它 们 却 不 是 频繁 
的 ， 也 就 是 说 ，{tr} 及 {t,s} 是 不 频繁 的 。 


接 下 来 ， 对 集合 {tz}、{tx} 以 及 {ty} 来 控 据 对 应 的 条 件 树 。 这 会 产生 更 复 
杂 的 频 蛇 项 集 。 该 过 程 重复 进行 ， 直 到 条 件 树 中 没有 元 素 为 止 ， 然 后 束 可 
以 停止 了 。 实 现代 码 相 对 比较 直观 ， 使 用 一 些 递 归 加 上 之 前 写 的 代码 就 可 
以 完成 。 打 开 fpGrowth.py ， 将 下 面 程序 中 的 代码 添加 进去 。 


程序 清单 12-5 ”递归 查找 频繁 项 集 的 mineTree HAL 


def mineTree(inTree, headerTable, minSup, preFix, fregItemList): 


#@ 从 头 指 针 表 的 底 端 开始 


bigL - [v[0] for v in sorted(headerTable.items(),key-lambda p: p[1])] 


for basePat in bigL: 


newFreqSet - preFix.copy() 


newFreqSet .add(basePat ) 


freqItemList.append(newFregSet) 


condPattBases - findPrefixPath(basePat, headerTable[basePat][1]) 


BO 从 条 件 模式 基 来 构建 条 件 FP 树 


myCondTree, myHead = createTree(condPattBases,minSup) 


BO 挖掘 条 件 FP 树 


if myHead !- None: 


mineTree(myCondTree, myHead, minSup, newFreqSet, fregItemList) 


创建 条 件 树 、 前 绥 路 径 以 及 条 件 基 的 过 程 听 起 来 比较 复杂 ， 但 是 代码 起 来 
相对 简单 。 程 序 首 先 对 头 指 针 表 中 的 元 素 项 按照 其 出 现 频 率 进行 排序 。 

( 记 住 这 里 的 默认 顺序 是 按照 从 小 到 大 。) @ 然 后， 将 每 一 个 频繁 项 添加 
到 频繁 项 集 列表 freqItemList 中 。 接 下 来 ， 递归 调用 程序 清单 12-4 中 的 

findPrefixPath() 函数 来 创建 条 件 基 。 该 条 件 基 被 当成 一 个 新 数据 集 输送 
给 createTree() 函数 。 外 这 里 为 函数 createTree() 添加 了 足够 的 灵活 性 ， 
以 确保 它 可 以 被 重用 于 构建 条 件 树 。 最 后 ， 如 果树 中 有 元 素 项 的 话 ， 递 归 
调用 mineTree() 函数 © ° 


下 面 将 整个 程序 合并 到 一 块 看 看 代码 的 实际 运行 效果 。 将 程序 清单 12-5 中 的 
代码 添加 到 文件 fperowth.py 中 并 保存 ， 然 后 在 Python 提示 符 下 输入 : 


>>> reload(fpGrowth ) 


«module 'fpGrowth' from 'fpGrowth.py'» 


下 面 建立 一 个 空 列表 来 存储 所 有 的 频繁 项 集 : 


>>> fregItems = [] 


接 下 来 运行 mineTree() ， 显 示 出 所 有 的 条 件 树 ; 
>>> fpGrowth.mineTree(myFPtree, myHeaderTab, 3, set([]), freqitems) 


conditional tree for: set(['y']) 


Null Set 1 


conditional tree for: set(['y', 'z']) 


Null Set 1 


conditional tree for: set(['s']) 


Null Set 1 


conditional tree for: set(['t']) 


Null Set 1 


conditional tree for: set(['x', 't']) 


Null Set 1 


conditional tree for: set(['z', 't']) 


Null Set 1 


conditional tree for: set(['x', 'z', 't']) 


Null Set 1 


conditional tree for: set(['x']) 


Null Set 1 


为 了 获得 类 似 于 前 面 代码 的 输出 结果 ， 我 在 函数 mineTree() 中 添加 了 两 
行 : 


print 'conditional tree for: ',newFreqSet 


myCondTree.disp(1) 


这 两 行 被 添加 到 程序 中 语句 if myHead !- None: 和 mineTree() 函数 调用 之 
间 。 


下 面 检查 一 下 返回 的 项 集 是 否 与 条 件 树 匹配 : 


>>> freqItems 


[set(['y']), set(['y', 'z']), set(['y', 'x', 'z']), set(['y', 'x']),set(['s']), set([ 
XC, 's']), set(['t']), set(['y', 't']), set(['x','t']), set(['y', 'x', 't']), set([" 
z', 't']), set(['y', 'z', 't']),set(['x', 'z', 't']), set(['y', 'x', 'z', 't']), set( 
['r']), set(['x']),set(['x', 'z']), set(['z']1)] 


正如 我 们 所 期 望 的 那样 ， 返 回 项 集 与 条 件 FP 树 相 匹 配 。 到 现在 为 主 ， 完 整 
的 FP-growth 算 法 已 经 可 以 运行 ， 接 下 来 在 一 个 真实 的 例子 上 看 一 下 运行 效 
条 。 我 们 将 看 到 是 否 能 从 微 博 网 站 Twitter 中 获得 一 些 闻 用 词 。 


12.4 示例 : 在 Twitter 源 中 发 现 一 些 共 现 词 


我 们 会 用 到 一 个 叫做 python-twitter 的 Python 库 ， 其 源 代 人 码 可 以 在 
http://code.google.com/p/python-twitter/ 下 载 。 正 如 你 猜 到 的 那样 ， 借 助 它 ， 
我 们 可 以 使 用 Python 来 访问 Twitter。Twittercom 实 际 上 是 一 个 和 其 他 人 进行 
交流 的 通道 ， 其 上 发 表 的 内 容 被 限制 在 140 个 字符 以 内 ， 发 表 的 一 条 信息 称 
为 推 文 (tweet) 


有 关 Twitter API 的 文档 可 以 在 http:/devtwittercomydoc 找到 。API 文 档 与 
Python 模块 中 的 关键 词 并 不 完全 一 致 。 我 推荐 直接 阅读 Python 文件 
twitter.py ， 以 完全 理解 库 的 使 用 方法 。 有 关 该 模块 的 安装 可 以 参考 附录 
A。 虽 然 这 里 只 会 用 到 函数 库 的 一 小 部 分 ， 但 是 使 用 API 可 以 做 更 多 事情 ， 
所 以 我 豆 励 读者 去 探索 一 下 API 的 所 有 功能 。 


示例 : 发 现 Twitter 源 中 的 共 现 词 (co-occurring word) 


1. 收集 数据 : 使 用 python-twitter 模块 来 访问 推 文 
2. 准备 数据 : 编写 一 个 函数 来 去 掉 URL、 去 掉 标 点 、 转 换 成 小 写 并 从 字 
符 串 中 建立 一 个 单词 集合 。 
3. 分 析 数 据 : 在 Python 提示 符 下 碍 看 准备 好 的 数据 ， 确 保 它 的 正确 性 。 
4. 训 练 算法 : 使 用 本 章 前 面 开发 的 createTree() 与 mineTree() 函数 执行 
FP-growth 算 法 。 
5. 测试 算法 : 这 里 不 适用 。 
6. 使 用 算法 : 本 例 中 没有 包含 具体 应 用 ， 可 以 考虑 用 于 情感 分 析 或 者 
询 推荐 领域 。 
在 使 用 API 之 前 ， 需 要 两 个 证 书 集合 。 第 一 个 集合 是 consumer_key 和 
consumer_secret， 当 注册 开发 app 时 (https://dev.twitter.com/apps/new ) ， 可 
以 从 Twitter 开发 服务 网 站 获得 。 这 些 key 对 于 要 编写 的 app 是 特定 的 。 第 二 个 
集合 是 access_token_key 和 access_token_secret， 它 们 是 针对 特定 Twitter 用 户 


Irt 


的 。 为 了 获得 这 些 key， 需 要 查看 Twitter-Python 安装 包 中 的 
get_access_token.py 文 件 〈 或 者 从 Twitter 开发 网 站 中 获得 ) 。 这 是 一 个 命令 
行 的 Python 脚 de ， 该 脚本 使 用 OAuth 来 告诉 Twitter 应 用 程序 具有 用 户 的 权限 
来 发 布 信息 。 一 旦 完成 上 述 工 作 之 后 ， 可 以 将 获得 的 值 放 入 前 面 的 代码 中 
开始 工作 。 对 于 给 定 的 搜索 词 ， 下 面 要 使 用 FP-growth 算 法 来 发 现 推 文中 的 
频繁 单词 集 提取 尽 可 能 多 的 推 文 《1400 条 ) 然后 放 到 FP- growth 算 法 
中 运行 。 将 eer RU S 文件 中 。 


程序 清单 12-6 ”访问 Twitter Python 库 的 代码 


import twitter 


from time import sleep 


import re 


def getLotsOfTweets(searchStr): 


CONSUMER KEY - 'get when you create an app' 


CONSUMER SECRET - 'get when you create an app' 


ACCESS TOKEN KEY - 'get from Oauth, specific to a user' 


ACCESS TOKEN SECRET - 'get from Oauth, specific to a user' 


api = twitter.Api(consumer key-CONSUMER KEY,consumer secret-CONSUMER SECRET, acces 
s token key-ACCESS TOKEN KEY,access token secret-ACCESS TOKEN SECRET) 


Zyou can get 1500 results 15 pages * 100 per page 


resultsPages - [] 


for i in range(1,15): 


print "fetching page %d" 96 i 


searchResults - api.GetSearch(searchStr, per page-100, page-i) 


resultsPages.append(searchResults) 


sleep(6) 


return resultsPages 


这 里 需要 导入 三 个 库 ， 分 别 是 twitter 库 、 用 于 正则 表达 式 的 库 ， 以 及 
sleep 函数 。 后 面 会 使 用 正则 表示 式 来 帮助 解析 文本 。 


函数 getLotsofTweets() 处 理 认 证 然后 创建 一 个 空 列 表 。 搜 索 API 可 以 一 次 
获得 100 条 推 文 。 每 100 条 推 文 作为 一 页 ， 而 Twitter 允许 一 次 访问 14 页 。 在 完 
成 搜索 调用 之 后 ， 有 一 个 6 秒 钟 的 睡眠 延迟 ， 这 样 做 是 出 于 礼貌 ， 避 人 免 过 于 
频繁 的 访问 请 求 。print 语句 用 于 表明 程序 仍 在 执行 没有 死 掉 。 


下 面 来 抓 取 一 些 推 文 ， 在 Python 提示 符 下 输入 : 


>>> reload(fpGrowth ) 


«module 'fpGrowth' from 'fpGrowth.py'» 


接 下 来 要 搜索 一 文 名 为 RIMM 的 股票 : 
>>> lotsOtweets = fpGrowth.getLotsOfTweets('RIMM' ) 
fetching page 1 


fetching page 2 


lotsOtweets 列表 包含 14 个 子 列表 ， 每 个 子 列表 有 100 条 推 文 。 可 以 输入 下 
面 的 命令 来 查看 推 文 的 内 容 : 


>>> lotsOtweets[0][4].text 

u"RIM: Open The Network, Says ThinkEquity: In addition, RIMM needs to 

reinvent its image, not only demonstrating ... http://bit.ly/lvlVi1U" 
正如 所 看 到 的 那样 ， 有 些 人 会 在 推 文中 放 入 URL。 这 样 在 解析 时 ， 结 果 束 
会 比较 乱 。 因 此 必须 去 掉 URL， 以 便 可 以 获得 推 文中 的 单词 。 下 面 程 序 清 
单 中 的 一 部 分 代码 用 来 将 推 文 解 术 成子 符 串 列表 ， 男 一 部 分 会 在 数据 集 上 
运行 FP-growth 算 法 2 将 下 面 的 代码 添加 到 fp6rowth.py 文件 中 。 
程序 清单 12-7 文本 解析 及 合成 代码 


def textParse(bigString): 


urlsRemoved = re.sub('(http[s]?:[/][/] |www.)([a-z]|] [A-Z]1] [9-9] | [. ]1] 
[~])*','', bigstring) 


listOfTokens = re.split(r'\w*', urlsRemoved) 


return [tok.lower() for tok in listOfTokens if len(tok) » 2] 


def mineTweets(tweetArr, minSup-5): 


parsedList - [] 


for i in range(14): 


for j in range(100): 


parsedList.append(textParse(tweetArr[i][j].text)) 


initSet - createInitSet(parsedList) 


myFPtree, myHeaderTab = createTree(initSet, minSup) 


myFreqList - [] 


mineTree(myFPtree, myHeaderTab, minSup, set([]), myFreqList) 


return myFreqList 


上 述 程 序 清单 中 的 第 一 个 函数 来 自 第 4 章 ， 此 外 这 里 添加 了 一 行 代码 用 于 去 
除 URL。 这 里 通过 调用 正则 表达 式 模 块 来 移 除 任何 URL。 程 序 清单 12-7 中 的 
另 一 个 函数 mineTweets() 为 每 个 推 文 调用 textParse 。 最 后 ， mineTweets() 
函数 将 12.2 攻 中 用 过 的 命令 封闭 到 一 起 ， 来 构建 FP 树 并 对 其 进行 挖掘 。 最 后 
返回 所 有 频繁 项 集 组 成 的 列表 。 


下 面 看 看 运行 的 效果 : 


>>> reload(fpGrowth) 

«module 'fpGrowth' from 'fpGrowth.py'» 

Let's look for sets that occur more than 20 times: 

>>> listOfTerms = fpGrowth.mineTweets(lotsOtweets, 20) 
How many sets occurred in 20 or more of the documents? 


>>> len(listOfTerms) 


我 写 这 段 代 码 的 前 一 天 ， 一 家 以 RIMM 股 票 代码 进行 交易 的 公司 开 了 一 次 电 
话 会 议 ， 会 议 并 没有 令 投 资 人 满意 。 该 股 开 盘 价 相对 前 一 天 封 盘 价 骏 跌 
229%。 下 面 看 下 上 述 情况 是 否 在 推 文中 体现 : 


>>> for t in listOfTerms: 


print t 


set([u'rimm', u'day']) 


set([u'rimm', u'earnings']) 


set([u'pounding', u'value']) 


set([u'pounding', u'overnight']) 


set([u'pounding', u'drops']) 


set([u'pounding', u'shares']) 


set([u'pounding', u'are']) 


set([u'overnight']) 


set([u'drops', u'overnight']) 


set([u'motion', u'drops', u'overnight']) 


set([u'motion', u'drops', u'overnight', u'value']) 


set([u'drops', u'overnight', u'research']) 


set([u'drops', u'overnight', u'value', u'research']) 


set([u'motion', u'drops', u'overnight', u'value', u'research']) 


set([u'motion', u'drops', u'overnight', u'research']) 


set([u'drops', u'overnight', u'value']) 


党 试 一 些 其 他 的 minsupport 值 或 者 搜索 词 也 是 蛮 有 趣 的 
我 们 还 记得 FP 树 的 构建 是 通过 每 次 应 用 一 个 实例 的 方式 来 完成 的 。 这 里 假 


设 已 经 获得 了 所 有 数据 ， 所 以 刚才 是 直 


接 电 历 所 有 的 数据 来 构建 FP 树 的 。 


实际 上 可 以 重 写 createTree() 函 数 ， 每 次 读 入 一 个 实例 ， 并 随 着 Twitter 流 的 


不 断 输入 而 不 断 增 长 树 。FP-growth 算 法 还 有 一 个 map-reduce 版 本 的 实现 ， 
它 也 很 不 错 ， 可 以 扩展 到 多 台 机 器 上 运行 。Google 使 用 该 算法 通过 遍历 大 
量 文本 来 发 现 频 繁 共 现 词 ， 其 做 法 和 我 们 刚才 介绍 的 例子 非常 类 似 :。 


1. H. Li, Y. Wang, D. Zhang, M. Zhang, E. Chang, “PFP: Parallel FP-Growth for Query Recommendation," RecSys’08, Proceedings of the 2008 ACM Conference on Recommender Systems; 


http://infolab.stanford.edu/~echang/recsys08-69.pdf. 


125 示例 : 从 新 闻 网 站 点 击 流 中 挖 握 


好 了 ， 本 章 的 最 后 一 个 例子 很 酷 ， 而 你 有 可 能 正在 想 : “伙计 ， 这 个 算法 应 
该 很 快 ， 因 为 只 有 1400 条 推 文 ! ”你 的 想法 是 正确 的 。 下 面 在 更 大 的 文件 上 
看 下 运行 效果 。 在 源 数 据 集 合 中 ， 有 一 个 kosarak.dat 文 件 ， 它 包含 将 近 100 
万 条 记录 '。 该 文件 中 的 每 一 行 包含 曲 个 用 户 浏 览 过 的 新 闻 报道 。 一 些 用 户 
只 看 过 一 篇 报道 ， 而 有 些 用 户 看 过 2498 篇 报道 。 用 户 和 报道 被 编码 成 整 
数 ， 所 以 得 看 频 驼 项 集 很 难得 到 更 多 的 东西 ， 但 是 该 数据 对 于 展示 FP- 
growth 算 法 的 速度 十 分 有 效 。 


1. Hungarian online news portal clickstream retrieved July 11, 2011; from Frequent Itemset Mining Dataset Repository, http://fimi.ua.ac.be/data/, donated by Ferenc Bodon. 


目 完 ， 将 数据 集 导入 到 列表 : 


>>> parsedDat = [line.split() for line in open('kosarak.dat').readlines()] 


接 下 来 需要 对 初始 集合 格式 化 : 


>>> initSet = fpGrowth.createInitSet(parsedDat ) 


然后 构建 FP 树 ， 并 从 中 寻找 那些 至 少 被 10 万 人 浏览 过 的 新 闻 报 道 。 


>>> myFPtree, myHeaderTab = fpGrowth.createTree(initSet, 100000) 


在 我 这 人 台 简 陋 的 笔记 本 电脑 上 ， 构 建树 以 及 扫描 100 万 行 只 需要 几 秒 钟 ， 这 
PII MP 。 下面 需要 创建 一 个 空 列 表 来 保存 这 些 频 
SRI: 


>>> myFreqList = [] 


>>> fpGrowth.mineTree(myFPtree, myHeaderTab, 100000, set([]), myFreqList) 


fk PRA PAS aia TOBE RG B10 ae eA ba 
>>> len(myFreqList ) 


9 


总 共有 9 个 。 下 面 看 看 都 是 哪些 : 
>>> myFreqList 


[set(['1']), set(['1', '6']), set(['3']), set(['11', '3']), set(['11', '3','6']), set 
(['3', '6']), set(['11']), set(['11', '6']), set(['6'])] 


可 以 使 用 其 他 设置 来 查看 运行 结果 ， 比 如 降低 置信 度 级 别 。 


12.6 ”本 章 小 结 


FP-growth 算 法 古 一 种 用 于 发 现 数据 集中 频 烷 模式 的 有 效 方法 。FP-growth 算 
法 利用 Apriori 原 则 ， 执 行 更 快 。Apriori 算 法 产生 候选 项 集 ， 然 后 扫描 数据 

集 来 检查 它们 是 否 频 驼 。 由 于 只 对 数据 集 扫 摘 两 次 ， 因 此 FP-growth 算 法 执 
行 更 快 。 在 FP-growth 算 法 中 ， 数 据 集 存储 在 一 个 称 为 FP 树 的 结构 中 。FP 树 
构建 完成 后 ， 可 以 通过 得 找 元 素 项 的 条 件 基 及 构建 条 件 FP 树 来 发 现 频 迷 项 
人 直到 FP 树 只 包含 一 个 元 素 


可 以 使 用 FP-growth 算 法 在 多 种 文本 文档 中 查找 频繁 单词 。Twitter 网 站 为 开 
发 者 提供 了 大 量 的 API 来 使 用 他 们 的 服务 。 利 用 python 模块 python-Twitter 
可 以 很 容易 访问 Twitter。 在 Twitter 源 上 对 某 个 话题 应 用 FP-growth 算 法 ， 可 
以 得 到 一 些 有 关 该 话题 的 摘要 信息 。 频 党 项 集 生 成 还 有 其 他 的 一 些 应 用 ， 
比如 购物 交易 、 医 学 诊断 及 大 气 研 究 等 。 


下 面 几 章 会 介绍 一 些 附 属 工具 。 第 13 章 和 第 14 章 会 介绍 一 些 降 维 技术 ， 使 
用 这 些 技术 可 以 提炼 数据 中 的 重要 信息 并 且 移 除 噪声 。 第 14 章 会 介绍 Map 
Reduce 技 术 ， 当 数据 量 超过 单 台 机 器 的 处 理 能 力 时 ， 将 会 需要 这 些 技术 。 


第 四 部 分 其 他 工具 


本 书 第 四 部 分 即 是 最 后 一 部 分 ， 主 要 介绍 在 机 器 学 习 实 践 时 弟 用 的 一 些 其 
他 工具 ， 它 们 可 以 应 用 于 前 三 部 分 的 算法 上 。 这 些 工 具 还 包括 了 可 以 对 前 
三 部 分 中 任 一 算法 的 输入 数据 进行 预 处 理 的 降 维 技术 。 这 一 部 分 还 包括 了 
在 上 千 台 机 器 上 分 配 作 业 的 Map Reduce 技 术 。 


降 维 的 目标 就 是 对 输入 的 数目 进行 前 减 ， 由 此 剔除 数据 中 的 噪声 并 提高 机 
器 学 习 方 法 的 性 能 。 第 13 章 将 介绍 按照 数据 方差 最 大 方向 调整 数据 的 主 成 
分 分 析 降 维 方法 。 第 14 章 解释 奇异 值 分 解 ， 它 是 矩阵 分 解 技术 中 的 一 种 ， 
通过 对 原始 数据 的 帝 近来 达到 降 维 的 目的 。 


第 15 章 是 本 书 的 最 后 一 章 ， 主 要 讨论 了 在 大 数据 下 的 机 器 学 习 。 大 数据 
(big data) 指 的 就 是 数据 集 很 大 以 至 于 内 存 不 足以 将 其 存放 。 如 果 数 据 不 
能 在 内 存 中 存放 ， 那 么 在 内 存 和 磁盘 之 间 传 输 数 据 时 就 会 浪费 大 量 的 时 
间 。 为 了 避免 这 一 点 ， 我 们 就 可 以 将 整个 作业 进行 分 片 ， 这 样 就 可 以 在 多 
机 下 进行 并 行 处 理 。Map Reduce 束 是 实现 上 述 过 程 的 一 种 流行 的 方法 ， 它 
将 作业 分 成 了 Map 任 务 和 Reduce 任 务 。 第 15 章 将 介绍 Python 中 Map Reduce 实 
e net 同时 也 介绍 了 将 机 器 学 习 转 换 成 满足 Map Reduce 编 程 
范式 的 方法 。 


第 13 章 ”利用 PCA 来 简化 数据 


本 章 内 容 


。 降 维 技术 
。 主 成 分 分 析 (PCA) 
。 对 半导体 数据 进行 降 维 处 理 


想象 这 样 一 种 场景 : 我 们 正 通过 电视 而 非 现场 观看 体育 比赛 ， 在 电视 的 纯 
平 显 示 器 上 有 一 个 球 。 显 示 络 大 概 包 售 了 100 万 像素 ， 而 球 则 可 能 是 由 较 少 
的 像素 组 成 的 ， 比 如 说 一 千 个 像素 。 在 大 部 分 体育 比赛 中 ， 我 们 关注 的 是 
给 定时 刻 球 的 位 置 。 人 的 大 脑 要 想 了 解 比赛 的 进展 ， 束 需要 了 解 球 在 运动 


场 中 的 位 置 。 对 于 人 来 说 ， 这 一 切 显 得 十 分 自然 ， 甚 至 都 不 需要 做 任何 思 
著 。 在 这 个 场景 当中 ， 和 人们 实时 地 将 显示 器 上 的 百 万 像素 转换 成 为 了 一 个 
三 维 图 像 ， 该 图 像 就 给 出 了 运动 场 上 球 的 位 置 。 在 这 个 过 程 中 ， 和 人们 已 经 
将 数据 从 一 百 万 维 降 至 了 三 维 。 


在 上 述 体育 比赛 的 例子 中 ， 和 人 们 面 对 的 原本 是 百 万 像素 的 数据 ， 但 是 只 有 
球 的 三 维 位 置 才 最 重要 ， 这 就 被 称 为 降 维 (dimensionality reduction) Wil 
才 我 们 将 超 百 万 的 数据 值 降 到 了 只 有 三 个 相关 值 。 在 低 维 下 ， 数 据 更 容易 
进行 处 理 。 男 外 ， 其 相关 特征 可 能 在 数据 中 明确 地 显示 出 来 。 通 常 而 言 ， 
我 们 在 应 用 其 他 机 器 学 习 算 法 之 前 ， 必 须 先 识别 出 其 相关 特征 。 


本 章 是 涉及 降 维 主题 的 两 章 中 的 第 一 章 。 在 降 维 中 ， 我 们 对 数据 进行 了 预 
处 理 。 之 后 ， 采 用 其 他 机 器 学 习 技 术 对 其 进行 处 理 。 本 章 一 开始 对 降 维 技 
术 进 行 了 综述 ， 然 后 集中 介绍 一 种 应 用 非常 普遍 的 称 为 主 成 分 分 析 的 技 

术 。 最 后 ， 我 们 束 通 过 一 个 数据 集 的 例子 来 展示 PCA 的 工作 过 程 。 经 过 

PCA 处 理 之 后 ， 该 数据 集 就 从 590 个 特征 降低 到 了 6 个 特征 。 


13.1 降 维 技术 


始终 人 贯穿 本 书 的 一 个 难题 束 是 对 数据 和 结果 的 展示 ， 这 是 因为 这 本 书 只 是 
二 维 的 ， 而 在 通常 的 情况 下 我 们 的 数据 不 古 如 此 。 有 时 我 们 会 显示 三 维 图 
像 或 者 只 显示 其 相关 特征 ， 但 是 数据 往往 拥有 超出 显示 能 力 的 更 多 特征 。 
S E 
JIRI: 


。 使 得 数据 集 更 易 使 用 ; 

。 降低 很 多 算法 的 计算 开销 ; 
。 去 除 噪声 

。 (RAR DIE ° 


在 已 标注 与 未 标注 的 数据 上 都 有 降 维 技术 。 这 里 我 们 将 主要 关注 未 标注 数 
据 上 的 降 维 技术 ， 该 技术 同时 也 可 以 应 用 于 已 标注 的 数据 。 


第 一 种 降 维 的 方法 称 之 为 主 成 分 分 析 (Principal Component Analysis, 
PCA) 。 在 PCA 中 ， 数 据 从 原来 的 坐标 系 转换 到 了 新 的 坐标 系 ， 新 坐标 系 
的 选择 是 由 数据 本 喘 决 定 的 。 第 一 个 新 坐标 轴 选 择 的 是 原始 数据 中 方差 最 
大 的 方向 ， 第 二 个 新 坐标 轴 的 选择 和 第 一 个 坐标 轴 正 交 且 具有 最 大 方差 的 
方向。 该 过 程 一 直 重 复 ， 重 复 次 数 为 原始 数据 中 特征 的 数目 。 我 们 会 发 
现 ， 大 部 分 方差 都 包含 在 最 前 面 的 儿 个 新 坐标 轴 中 。 因 此 ， 我 们 可 以 忽略 


余下 的 坐标 轴 ， 即 对 数据 进行 了 降 维 处 理 。 在 13.2 节 我 们 将 会 对 PCA 的 细节 
进行 深入 介绍 。 


另外 一 种 降 维 技术 是 因子 分 析 (Factor Analysis) 。 在 因子 分 析 中 ， 我 们 假 
设 在 观察 数据 的 生成 中 有 一 些 观察 不 到 的 隐 变 量 (latent variable) 。 假 设 观 
察 数 据 是 这 些 隐 变量 和 某 些 噪 声 的 线性 组 合 。 那 么 隐 变 量 的 数据 可 能 比 观 
察 数 据 的 数目 少 ， 也 就 是 说 通过 找到 隐 变 量 就 可 以 实现 数据 的 降 维 。 因 子 
分 析 已 经 应 用 于 社会 科学 、 金 融和 其 他 领域 中 了 。 


还 有 一 种 降 维 技术 就 是 独立 成 分 分 析 (Independent Component Analysis, 

ICA) E nas ee 这 一 点 和 因子 分 析 有 些 类 

似 。 假 设 数据 为 多 个 数据 源 的 混合 观察 结果 ， 这 些 数据 产 之 间 在 统计 上 是 
相互 独立 的 ， 而 在 PCA 中 只 LERERUR GROSS 同 因 子 分 析 一 样 ， 如 果 
数据 源 的 数目 少 于 观察 数据 的 数目 ， 则 可 以 实现 降 维 过 程 。 


在 上 述 3 种 降 维 技术 中 ，PCA 的 应 用 目前 最 为 广泛 ， 因 此 本 章 主要 关注 
PCA。 在 下 一 方 中 ， 我 们 将 会 对 PCA 进 行 介绍 ， 然 后 再 通过 一 段 Python 代 码 
来 运行 PCA 。 

13.2 PCA 

主 成 分 分 析 

优点 : 降低 数据 的 复杂 性 ， 识 别 最 重要 的 多 个 特征 。 

缺点 : 不 一 定 需 要 ， 且 可 能 损失 有 用 信息 。 

适用 数据 类 型 : 数值 型 数据 。 


首先 我 们 讨论 PCA 背 后 的 一 些 理论 知识 ， 然 后 介绍 如 何 通 过 Python 的 NumPy 
来 实现 PCA ° 


13.2.1 移动 坐标 轴 


考虑 一 下 图 13-1 中 的 大 量 数据 点 。 如 果 要 求 我 们 画 出 一 条 直线 ， 这 条 线 要 尽 
可 能 履 盖 这 些 点 ， 那 么 最 长 的 线 可 能 是 哪 条 ? 我 做 过 多 次 尝试 。 AE 
中 ，3 条 直线 中 B 最 长 。 在 PCA 中 ， 我 们 对 数据 的 坐标 进行 了 旋转 ， 该 旋转 
HEC ee B — FR BA pF eS EA m BD EC 73 E b. 

, BURA BARB o SARA 2228 Hh T GRRE SEE ei ME, o 


在 选择 了 覆盖 数据 最 大 差异 性 的 坐标 轴 之 后 ， 我 们 选择 了 第 二 条 坐标 轴 。 
假如 该 坐标 轴 与 第 一 条 坐标 轴 垂 直 ， 它 束 是 覆盖 数据 次 大 差异 性 的 坐标 

轴 。 这 里 更 严谨 的 说 法 就 是 正 交 (orthogonal) 。 当 然 ， 在 二 维 平面 下 ， 垂 
直 和 正 交 是 一 回 事 。 在 图 13-1 中 ， 直 线 C 束 是 第 二 条 坐标 轴 。 利 用 PCA， 我 
们 将 数据 坐标 轴 旋 转 至 数据 角度 上 的 那些 最 重要 的 方向 。 


5 6 7 8 9 10 11 112 13 14 


图 13-1 覆盖 整个 数据 集 的 三 条 直线 ， 其 中 直线 B 最 长 ， 并 给 出 了 数据 集中 
差异 化 最 大 的 方向 


我 们 已 经 实现 了 坐标 轴 的 旋转 ， 接 下 来 开始 讨论 降 维 。 坐 标 轴 的 旋转 并 没 
有 减少 数据 的 维度 。 考 虑 图 13-2， 其 中 包含 着 3 个 不 同 的 类 别 。 要 区 分 这 3 个 
类 别 ， 可 以 使 用 决策 树 。 我 们 还 记得 决 岳 树 每 次 都 是 基于 一 个 特征 来 做 决 
策 的 。 我 们 会 发 现 ， 在 x 轴 上 可 以 找到 一 些 值 ， 这 些 值 能 够 很 好 地 将 这 3 个 
类 别 分 开 。 这 样 ， 我 们 就 可 能 得 到 一 些 规则 ， 比 如 当 (x<4) 时 ， 数 据 属于 
类 别 0。 如 果 使 用 SVM 这 样 稍 微 复杂 一 点 的 分 类 器 ， 我 们 束 会 得 到 更 好 的 分 
类 面 和 分 类 规则 ， 比 如 当 (we*x + wi*y + b) > 69 时， 数据 也 属于 类 别 0。 
SVM 可 能 比 决策 树 得 到 更 好 的 分 类 间隔 ， 但 是 分 类 超 平面 却 很 难 解释 。 


通过 PCA 进 行 降 维 处 理 ， 我 们 整 可 以 同时 获得 SVM 和 决策 树 的 优 操 ， 一 方 
面 ， 得 到 了 和 决策 树 一 样 简 单 的 分 类 郁 ， 同 时 分 类 间隔 和 SVM 一 样 好 。 考 


察 图 13-2 中 下 面 的 图 ， 其 中 的 数据 来 自 于 上 面 的 图 并 经 PCA 转 换 之 后 绘制 而 
成 的 。 如 末 仅 使 用 原始 数据 ， 那 么 这 里 的 间隔 会 比 决策 树 的 间隔 更 大 。 男 
外 ， 由 于 只 需要 考虑 一 维 信息 ， 因 此 数据 就 可 以 通过 比 SVM 倘 单 得 多 的 很 
容易 采用 的 规则 进行 区 分 。 


—— -lo 120 =5 0 5 10 15 20 


图 13-2 ”二 维 空 间 的 3 个 类 别 。 当 在 该 数据 集 上 应 用 PCA 时 ， 就 可 以 去 掉 一 
维 ， 从 而 使 得 该 分 类 问题 变 得 更 容易 处 理 


在 图 13-2 中 ， 我 们 只 需要 一 维 信息 即 可 ， 因 为 另 一 维 信息 只 是 对 分 类 缺乏 页 
献 的 噪声 数据 。 在 二 维 乎 面 下 ， 这 一 点 看 上 去 微不足道 ， 但 是 如 采 在 高 维 
空间 下 则 意义 重大 。 


我 们 已 经 对 PCA 的 基本 过 程 做 出 了 信 单 的 阐述 ， 接 下 来 束 可 以 通过 代码 来 
实现 PCA 过 程 。 前 面 我 曾 提 到 的 第 一 个 主 成 分 就 是 从 数据 差异 性 最 大 ( 即 
JARA) 的 方向 提取 出 来 的 ， 第 二 个 主 成 分 则 来 自 于 数据 差异 性 次 大 的 
方向 ， 并 且 该 方 癌 与 第 一 个 主 成 分 方 癌 正 交 。 通 过 数据 集 的 协 方差 矩阵 及 
其 特征 值 分 析 ， 我 们 束 可 以 求 得 这 些 主 成 分 的 值 。 


一 旦 得 到 了 协 方差 矩阵 的 特征 向 量 ， 我 们 就 可 以 保留 最 大 的 N 个 值 。 这 些 特 
征 癌 量 也 给 出 了 N 个 最 重要 特征 的 真实 结构 。 我 们 可 以 通过 将 数据 乘 上 这 N 
个 特征 向 量 而 将 它 转换 到 新 的 空间 。 
特征 值 分 析 
特征 值 分 析 是 线性 代数 中 的 一 个 领域 ， 它 能 够 通过 数据 的 一 般 格 式 来 
揭示 数据 的 “真实 ?结构 ， 即 我 们 常 说 的 特征 向 量 和 特征 值 。 在 等 式 Av 
= Av 中 ,vy 是 特征 癌 量 ， 和 是 特征 值 。 特 征 值 都 是 简单 的 标量 值 ， 
此 av = Av 代表 的 是 : 如 果 特 征 回 量 v 被 某 个 矩阵 A AR, ALA ER 
等 于 某 个 标量 》 乘 以 v。 幸 运 的 是 ，NumPy 中 有 寻找 特征 向 量 和 特征 值 
的 模块 1inalg ， 它 有 eig() 方法 ， 该 方法 用 于 求解 特征 向量 和 特征 值 。 
13.2.2 ”在 NumPy 中 实现 PCA 
将 数据 转换 成 前 N 个 主 成 分 的 伪 码 大 致 如 下 : 


* 


uu 


RPH 


计算 协 方差 矩阵 


计算 协 方差 矩阵 的 特征 值 和 特征 向 量 


将 特征 值 从 大 到 小 排序 


保留 最 上 面 的 N 个 特征 向 上 


将 数据 转换 到 上 述 N 个 特征 向 量 构建 的 新 空间 中 


建立 一 个 名 为 pca.py 的 文件 并 将 下 列 代 码 加 入 用 于 计算 PCA。 
程序 清单 13-1 PCA 算 法 


from numpy import * 


def loadDataSet(fileName, delim='\t'): 


fr - open(fileName) 


stringArr - [line.strip().split(delim) for line in fr.readlines()] 


datArr = [map(float,line) for line in stringArr] 


return mat(datArr) 


def pca(dataMat, topNfeat-9999999): 


meanVals - mean(dataMat, axis-0) 


#@ 去 平均 值 


meanRemoved = dataMat - meanVals 

covMat = cov(meanRemoved, rowvar-0) 
eigVals,eigVects - linalg.eig(mat(covMat)) 
eigValInd - argsort(eigVals) 

86 从 小 到 大 对 N 个 值 排序 

eigValInd = eigValInd[:-(topNfeat+1):-1] 
redEigVects = eigVects[:,eigValInd] 

HO 将 数据 转换 到 新 空间 

lowDDataMat = meanRemoved * redEigVects 

reconMat = (lowDDataMat * redEigVects.T) + meanVals 


return lowDDataMat, reconMat 


程序 清单 13-1 中 的 代码 包含 了 通常 的 NumPy 导 入 和 1loadpataset() ER Z o 3x 
里 的 loadDataset( ) 函数 和 前 面 章节 中 的 版 本 有 所 不 同 因为 这 里 使 用 了 两 


个 list comprehension 来 构建 矩阵 。 


pca() 函数 有 两 个 参数 : 第 一 个 参数 是 用 于 进行 PCA 操 作 的 数据 集 ， 第 二 个 
参数 topNfeat 则 是 一 个 可 选 参数 ， 即 应 用 的 N 个 特征 。 如 采 不 指定 topNfeat 
的 值 ， 那 么 函数 就 会 返回 前 9 999 999 个 特征 ， 或 者 原始 数据 中 全 部 的 特 
征 。 


首先 计算 并 减 去 原始 数据 集 的 平均 值 @。 然 后 ， 计 算 协 方差 矩阵 及 其 特征 
值 ， 接 着 利用 argsort() 函数 对 特征 值 进行 从 小 到 大 的 排序 。 根 据 特征 值 排 
序 结果 的 逆序 就 可 以 得 到 topNfeat 个 最 大 的 特征 向 量 @。 这 些 特征 向 量 将 
构成 后 面 对 数 据 进行 转换 的 和 矩阵， 该 矩阵 则 利用 N 个 特征 将 原始 数据 转换 
到 新 空间 中 @。 最 后 ， 原 始 数 据说 重 构 后 返回 用 于 调试 ， 同 时 降 维 之 后 的 
数据 集 也 被 返回 了 。 


WYRE LEMS, eRe? 在 进入 规模 更 大 的 例子 之 前 ， 我 们 先 看 看 上 
面 代码 的 运行 效果 以 确保 其 结果 正确 无 误 。 


>>> import pca 


我 们 在 testset .txt 文件 中 加 入 一 个 由 1000 个 数据 点 组 成 的 数据 集 ， 并 通过 
如 下 命令 将 该 数据 集 调 入 内 存 : 


>>> dataMat = pca.loadDataSet('testSet.txt') 


于 是 ， 我 们 融 可 以 在 该 数据 集 上 进行 PCA 操 作 : 

>>> lowDMat, reconMat = pca.pca(dataMat, 1) 
lowpMat 包公 了 降 维 之 后 的 矩阵 ， 这 里 是 个 一 维和 矩阵 ， 我 们 通过 如 下 命令 进 
行 检查 : 

>>> shape(lowDMat) 


(1000, 1) 


我 们 可 以 通过 如 下 命令 将 降 维 后 的 数据 和 原始 数据 一 起 绘制 出 来 : 


>>> import matplotlib 

>>>import matplotlib.pyplot as plt 
fig = plt.figure() 

ax = fig.add subplot(111) 


>>> ax.scatter(dataMat[:,0].flatten().A[0], dataMat[:,1].flatten().A[0],markerz'^', s 
=90) 


<matplotlib.collections.PathCollection object at 0x029B5C50> 


>>> ax.scatter(reconMat[:,0].flatten().A[0], reconMat[:,1].flatten().A[0],marker='o' 
s=50, c='red') 


<matplotlib.collections.PathCollection object at 0x0372A210»plt.show() 


我 们 应 该 会 看 到 和 图 13-3 类 似 的 结果 。 使 用 如 下 命令 来 蔡 换 原来 的 PCA 调 
用 ， 并 重复 上 述 过 程 : 


>>> lowDMat, reconMat = pca.pca(dataMat, 2) 


BARC ZUERTETREUE, Sb EA Ja 有 数据 会 和 原始 的 数据 重合 。 我 们 
也 会 看 到 和 图 13-3 类 似 的 结果 (不 包含 图 13-3 中 的 直线 ) 


图 13-3 ”原始 数据 集 (三 角形 点 表示 ) 及 第 一 主 成 分 〈 圆 形 点 表示 ) 


M 示例 : 利用 PCA 对 半导体 制造 数据 降 


半导体 是 在 一 些 极为 先进 的 工厂 中 制造 出 来 的 。 工 三 或 制造 设备 不 仅 需 要 
花费 上 亿美 元 ， 而 且 还 需要 大 量 的 工人 。 制 造 设备 仅 能 在 几 年 内 保持 其 先 
进 性 ， 随 后 就 必须 更 换 了 “。 单 个 集成 电路 的 加 工时 间 会 超过 一 个 月 。 在 设 
备 生 命 期 有 限 ， 人 花费 又 极其 巨大 的 情况 下 ， 制 造 过 程 中 的 每 一 秒 钟 都 价值 
巨大 。 如 采制 造 过 程 中 存在 瑕 兹 ， 我 们 束 作 须 尽 早 发 现 ， 从 而 确保 宝贵 的 
时 间 不 会 花费 在 缺陷 产品 的 生产 上 。 


一 些 工程 上 的 通用 解决 方案 是 通过 早期 测试 和 频繁 测试 来 发 现 有 缺陷 的 产 
品 ， 但 仍然 有 一 些 存在 瑕 症 的 产品 通过 了 测试 。 如 果 机 器 学 习 技术 能 够 用 
于 进一步 减少 错误 ， 那 么 它 就 会 为 制造 商 节 省 大 量 的 资金 。 


接 下 来 我 们 将 考察 面 同 上 述 任务 中 的 数据 集 ， 而 它 也 比 前 面 使 用 的 数据 集 
更 大 ， 并 且 包 含 了 许多 特征 。 具 体 地 讲 ， 它 拥有 590 个 特征 '。 我 们 看 看 能 
否 对 这 些 特征 进行 降 维 处 理 。 读 者 也 可 以 通过 
http://archive.ics.uci.edu/ml/machine-learning-databases/secom/ 得 到 该 数据 
集 。 


1 SECOM Data Set retrieved from the UCI Machine Learning Repository: http://archive.ics.uci.edu/ml/datasets/SECOM on June 1, 2011. 


该 数据 包含 很 多 的 缺失 值 。 这 些 缺 失 值 是 以 NaN (Not a Number 的 缩写 ) 标 
识 的 。 对 于 这 些 缺 失 值 ， 我 们 有 一 些 处 理 办 法 (参考 第 5 章 ) 。 在 590 个 特 
征 下 ， 几 乎 所 有 样本 都 有 NaN， 因 此 去 除 不 完整 的 样本 不 太 现 实 。 尽 管 我 
们 可 以 将 所 有 的 NaN 替 换 成 0， 但 是 由 于 并 不 知道 这 些 值 的 意义 ， 所 以 这 样 
做 是 个 下 策 。 如 果 它 们 是 开 氏 温度 ， 那 么 将 它们 置 成 0 这 种 处 理 策略 就 太 差 
劲 了 。 下 面 我 们 用 平均 值 来 代替 缺失 值 ， 平 均值 根据 那些 非 NaN 得 到 。 


将 下 列 代码 添加 到 pca.py 文件 中 。 
程序 清单 13-2 ”将 NaN 替 换 成 平均 值 的 画 数 


def replaceNanwithMean(): 


datMat = loadDataSet('secom.data', ' ') 


numFeat = shape(datMat)[1] 


for i in range(numFeat): 


meanVal - mean(datMat[nonzero(-isnan(datMat[:,i].A))[0],i]) 


#@ 计算 所 有 非 NaN 的 平均 值 


datMat[nonzero(isnan(datMat[:,i].A))[0],i] = meanVal 


#@ 将 所 有 NaN 置 为 平均 值 


return datMat 


上 述 代 码 首先 打开 了 数据 集 并 计算 出 了 其 特征 的 数目 ， 然 后 再 在 所 有 的 特 
征 上 进行 循环 。 对 于 每 个 特征 ， 首 先 计算 出 那些 非 NaN 值 的 平均 值 @。 然 


Ja, KANNE AAZ FAA © 


我 们 已 经 去 除了 所 有 NaN， 接 下 来 考虑 在 该 数据 集 上 应 用 PCA。 首 移 人 确认 所 
需 特 征 和 可 以 去 除 特征 的 数目 。PCA 会 给 出 数据 中 所 包含 的 信息 量 。 需 要 
特别 强调 的 是 ， 数 据 (data) 和 信息 (information) 之 间 具 有 巨大 的 差别 。 
数据 指 的 是 接受 的 原始 材料 ， 其 中 可 能 包含 噪声 和 不 相关 信息 。 信 息 是 指 
数据 中 的 相关 部 分 。 这 些 并 非 只 是 抽象 概念 ， 我 们 还 可 以 定量 地 计算 数据 
中 所 包含 的 信息 并 决定 保留 的 比例 。 


下 面 看 看 该 如 何 实现 这 一 点 。 首 和 完 ， 利 用 程序 清单 13-2 中 的 代码 将 数据 集中 
所 有 的 NaN 替 换 成 平均 值 : 


dataMat = pca.replaceNanwithMean() 


接 下 来 从 pca() 函数 中 借用 一 些 代码 来 达到 我 们 的 目的 ， 之 所 以 借用 是 因为 
我 们 想 了 解 中 间 结 果 而 非 最 后 输出 结 采 。 首 先 调用 如 下 语句 去 除 均 值 : 


meanVals = mean(dataMat, axis-0) 


meanRemoved - dataMat - meanVals 


然后 计算 协 方才 矩阵 : 


covMat = cov(meanRemoved, rowvar=0) 


最 后 对 该 矩阵 进行 特征 值 分 析 : 


eigVals,eigVects = linalg.eig(mat(covMat)) 


现在 ， 我 们 可 以 观察 一 下 特征 值 的 结 
>>> eigVals 
array([ 5.34151979e+07, 2.17466719e+07, 8.24837662e+06, 


2.07388086e+06, 1.31540439e+06, 4.67693557e+05, 


2.90863555e+05, 2.83668601e+05, 2.37155830e+05, 


2.08513836e+05, 1.96098849e+05, 1.86856549e+05, 


0.00000000e+00, 0.00000000e-00, O.00000000e+00, 
0.00000000e-00, 0.00000000e-00, O.00000000e+00, 
0.00000000e-00, 0.00000000e-00, 0.00000000e-00, 
0.00000000e-00, 0.00000000e-00, 0.00000000e-00, 


0.00000000e-00, 0.00000000e-00]) 


我 们 会 看 到 一 大 堆 值 ， 但 是 其 中 的 什么 会 引起 我 们 的 注意 ? 我 们 会 发 现 其 
中 很 多 值 都 是 0 吗 ? 实际 上 ， 其 中 有 超过 20% 的 特征 值 都 是 0。 这 就 意味 着 这 
些 特征 都 古 其 他 特征 的 副本 ， 也 就 是 说 ， 它 们 可 以 通过 其 他 特征 来 表示 ， 
而 本 身 并 没有 提供 额外 的 信息 。 


接 下 来 ， 我们 了 解 一 下 部 分 数值 的 数量 级 。 最 前 面 15 个 值 的 数量 级 大 于 105 
， 实 际 上 那 以 后 的 值 都 变 得 非常 小 。 这 束 相 当 于 告诉 我 们 只 有 部 分 重要 特 
征 ， 重 要 符 征 的 数目 也 很 快 殉 会 下 降 。 


我 们 可 能 会 注意 到 有 一 些小 的 负 值 ， 它 们 主要 源 自 数值 误差 应 该 四 
2 o 
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图 13-4 ”前 20 个 主 成 分 占 总 方差 的 百分比 。 可 以 看 出 ， 大 部 分 方差 都 包含 在 
前 面 的 几 个 主 成 分 中 ， 舍弃 后 面 的 主 成 分 并 不 会 损失 太 多 的 信息 。 如 果 保 
留 bh 则 数据 集 可 以 从 590 个 特征 约 简 成 6 个 特征 ， 大 概 实现 了 
100:1HjJFk* 


表 13- 分 所 对 应 的 方差 百分比 和 累积 方差 百分比 。 浏 览 “ 累 
积 方差 百分比 (%) ”这 一 列 就 会 注意 到 ， 前 六 个 主 成 分 就 覆盖 了 数据 96. 8% 
WAZ, i20 1- ELA OR roo auf 。 这 就 表明 了 ， 如 果 保 留 前 6 
个 而 去 除 后 584 个 主 成 分 ， 我 们 就 可 以 实现 大 概 100:1 的 压缩 比 。 另 外 ， 由 于 
舍弃 了 噪声 的 主 成 分 ， 将 后 面 的 主 成 分 去 除 便 使 得 数据 更 加 干净 > 


表 13-1 半导体 数据 中 前 7 个 主 成 分 所 占 的 方差 百分比 


ERD ”方差 百分比 (%) ”累积 方差 百分比 (%) 


于 是 ， 我 们 可 以 知道 在 数据 集 的 前 面 多 个 主 成 分 中 所 包含 的 信息 量 。 我 们 
可 以 竹 试 不 同 的 截断 值 来 检验 它们 的 性 能 。 有 些 人 使 用 能 包 售 90% 信 息 量 的 
主 成 分 数量 ， 而 其 他 人 使 用 前 20 个 主 成 分 。 我 们 无 法 精确 知道 所 需要 的 主 
成 分 数目 ， 必 须 通 过 在 实验 中 取 不 同 的 值 来 确定 。 有 效 的 主 成 分 数目 则 取 
决 于 数据 集 和 具体 应 用 。 


上 述 分 析 能 够 得 到 所 用 到 的 主 成 分 数目 ， 然 后 我 们 可 以 将 该 数目 输入 到 
PCA 算 法 中 ， 最 后 得 到 约 简 后 数据 束 可 以 在 分 类 器 中 使 用 了 。 


13.4 ”本 章 小 结 


降 维 拉 术 使 得 数据 变 得 更 易 使 用 ， 并 且 它 们 往往 能 够 去 除数 据 中 的 噪声 ， 
使 得 其 他 机 器 学 习 任 务 更 加 精确 。 降 维 往往 作为 预 处 理 步骤 ， 在 数据 应 用 
到 其 他 算法 之 前 清洗 数据 。 有 很 多 技术 可 以 用 于 数据 降 维 ， 在 这 些 技术 
中 ， 独 立成 分 分 析 、 因 子 分 析 和 主 成 分 分 析 比 较 流 行 ， 其 中 义 以 主 成 分 分 
析 应 用 最 广泛 。 


PCA 可 以 从 数据 中 识别 其 主要 特征 ， 它 是 通过 治 着 数据 最 大 方差 方向 旋转 
坐标 轴 来 实现 的 。 选 择 方差 最 大 的 方向 作为 第 一 条 坐标 轴 ， 后 续 坐 标 轴 则 
与 前 面 的 坐标 轴 正 交 。 协 方差 矩阵 上 的 特征 值 分 析 可 以 用 一 系列 的 正 交 坐 
标 轴 来 获取 。 

本 章 中 的 PCA 将 所 有 的 数据 集 都 调 入 了 内 存 ， 如 果 无 法 做 到 ， 就 需要 其 他 
的 方法 来 寻找 其 特征 值 。 如 果 使 用 在 线 PCA 分 析 的 方法 ， 你 可 以 参考 一 篇 
优秀 的 论文 "Incremental Eigenanalysis for Classification”:。 下 一 章 要 讨论 的 


奇异 值 分 解 方法 也 可 以 用 于 特征 值 分 析 。 


1. P. Hall, D. Marshall, and R. Martin, “Incremental Eigenanalysis for Classification," Department of Com- puterScience, Cardiff University, 1998 British Machine Vision Conference, vol. 1, 286— 


95; [http:// citeseer.ist.psu.edu/viewdoc/summary?doi=10.1.1.40.4801.](http:// citeseer.ist.psu.edu/viewdoc/summary?doi=10.1.1.40.4801.) 


第 14 章 ”利用 SVD 简 化 数据 


本 章 内 容 


© SVD 和 矩阵 分 解 
。 推荐 引擎 
。 利 用 SVD 提 升 推荐 引擎 的 性 能 


餐馆 可 划分 为 很 多 类 别 ， 比 如 美式 、 中 式 、 日 式 、 和 牛排 馆 、 素 食 店 ， 等 
等 。 你 是 否 想 过 这 些 类 别 够 用 吗 ? 或 许 人 们 喜欢 这 些 的 混合 类 别 ， 或 者 类 
似 中 式 素 食 店 那 样 的 子 类 别 。 如 何 才能 知道 到 底 有 多 少 类 和 餐馆 呢 ? 我 们 也 
许可 以 问 问 专家 ? 但 是 倘若 某 个 专家 说 应 该 按照 调料 分 类 ， 而 男 一 个 专家 
则 认为 应 该 按照 配料 分 类 ， 那 该 怎么 办 呢 ? RITEK, KIDEEN E 
手 吧 。 我 们 可 以 对 记录 用 户 关 于 和 餐馆 观点 的 数据 进行 处 理 ， 并 且 从 中 提取 
出 其 背后 的 因素 。 

这 些 因 素 可 能 会 与 餐馆 的 类 别 、 豪 饪 时 所 用 的 某 个 特定 配料 ， 或 其 他 任意 
对 象 一 致 。 然 后 ， 我 们 束 可 以 利用 这 些 因素 来 估计 人 们 对 没有 去 过 的 和 餐馆 
的 看 法 。 

提取 这 些 信息 的 方法 称 为 奇异 值 分 解 (Singular Value Decomposition, 
SVD) 。 从 生物 信息 学 到 金融 学 等 在 内 的 很 多 应 用 中 ，SVD 都 是 提取 信息 
的 强大 工具 o 

本 章 将 介绍 SVD 的 概念 及 其 能 够 进行 数据 约 简 的 原因 。 然 后 ， 我 们 将 会 介 
绍 基 于 Python 的 SVD 实 现 以 及 将 数据 映射 到 低 维 空间 的 过 程 。 再 接 下 来 ， 我 
们 就 将 学 习 推荐 引 敬 的 概念 和 它们 的 实际 运行 过 程 。 为 了 提高 SVD 的 精 
度 ， 我 们 将 会 把 其 应 用 到 推荐 系统 中 去 ， 该 推荐 系统 将 会 帮助 人 们 寻找 到 
合适 的 和 餐馆。 最 后 ， 我 们 讲述 一 个 SVD 在 图 像 压 缩 中 的 应 用 例子 。 


14.1 SVD 的 应 用 
奇异 值 分 解 
优点 : 简化 数据 ， 去 除 噪声 ， 提 高 算法 的 结 
缺点 : 数据 的 转换 可 能 难以 理解 。 
适用 数据 类 型 : 数值 型 数据 。 


利用 SVD 实 现 ， 我 们 能 够 用 小 得 多 的 数据 集 来 表示 原始 数据 集 。 这 样 做 ， 
实际 上 有 是 去 除了 噪声 和 元 余 信 息 。 当 我 们 试图 节省 空间 时 ， 去 除 噪声 和 元 


RA Aii fi zr mA HOP D, (ete RB TU Mace Pee ^ ds 
于 这 个 视角 ， 我 们 束 可 以 把 SVD 看 成 是 从 有 噪声 的 数据 中 抽取 相关 特征 。 
如 采 这 一 点 听 来 奇怪 ， 也 不 必 担 心 ， 我 们 后 面 会 给 出 才干 SVD 应 用 的 场景 
和 方法 ， 解 释 它 的 威力 。 


首 爷 ， 我 们 会 介绍 SVD 是 如 何 通过 隐 性 语义 索引 应 用 于 搜索 和 信息 检索 领 
域 的 。 然 后 ， 我 们 再 介绍 SVD 在 推荐 系统 中 的 应 用 。 


14.1.1 隐 性 语义 索引 


SVD 的 历史 已 经 超过 上 百 个 年 头 ， 但 是 最 近 几 十 年 随 着 计算 机 的 使 用 ， 我 
们 发 现 了 其 更 多 的 使 用 价值 。 最 早 的 SVD 应 用 之 一 驶 是 信息 检索 。 我 们 称 
利用 SVD 的 方法 为 隐 性 语义 索引 (Latent Semantic Indexing, LSI) 或 隐 性 
语义 分 析 (Latent Semantic Analysis, LSA) 。 


在 LSI 中 ， 一 个 矩阵 是 由 文档 和 词语 组 成 的 。 当 我 们 在 该 矩阵 上 应 用 SVD 
时 ， 束 会 构建 出 多 个 奇异 值 。 这 些 奇 异 值 代表 了 文档 中 的 概念 或 主题 ， 这 
一 特点 可 以 用 于 更 高 效 的 文档 搜索 。 在 词语 拼写 错误 时 ， 只 基于 词语 存在 
与 否 的 稍 单 搜索 方法 会 遇 到 问题 。 人 简单 搜 索 的 另 一 个 问题 束 是 同义词 的 使 
用 。 这 束 古 说 ， 当 我 们 查找 一 个 词 时 ， 其 同义词 所 在 的 文档 可 能 并 不 会 匹 
= 2 m DDR 中 抽取 出 概念 ， 那 么 同义词 整 会 映射 


14.1.2 ”推荐 系统 


SVD 的 男 一 个 应 用 束 是 推荐 系统 。 人 简单 版 本 的 推荐 系统 能 够 计算 项 或 者 人 
之 间 的 相似 度 。 更 先进 的 方法 则 先 利 用 SVD 从 数据 中 构建 一 个 主题 空间 ， 
然后 再 在 该 空间 下 计算 其 相似 度 。 考 虑 图 14-1 中 给 出 的 矩阵 ， 它 是 由 餐馆 的 
来 和 品 菜 师 对 这 些 荣 的 意见 构成 的 。 品 染 师 可 以 采用 1 到 5 之 间 的 任意 一 个 
整数 来 对 菜 评级 。 如 琳 品 羔 师 没有 笠 过 菏 道 瑟 ， 则 评级 为 0。 
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G 鸡 m d Ki t 鸡 mn + Ki 

E |0 0 0 2 2 Ed jO 0 0 2 2 
Peter | 0 0 0 3 3 Peter | 0 0 0 3 3 
Tracy | 0 0 0 1 1 Tracy | 0 0 0 1 1 
Fan 1 1 1 0 0 Fan 1 1 1 0 0 
Ming | 2 2 2 0 0 Ming | 2 2 2 0 0 
Pachi |5 5 5 0 0 Pachi |5 5 5 0 0 
Jocelyn | 1 1 1 0 0 Jocelyn | 1 1 1 0 0 


图 14-1 ”餐馆 的 菜 及 其 评级 的 数据 。 对 此 和 矩阵 进行 SVD 处 理 则 可 以 将 数据 压 
缩 到 若干 概念 中 去 。 在 右边 的 矩阵 当中 ， 标 出 了 一 个 概念 。 


我 们 对 上 述 和 矩阵 进行 SVD 人 处 理 ， 会 得 到 两 个 奇异 值 (读者 如 果 不 信 可 以 自 
己 试 试 ) 。 因 此 ， 就 会 仿佛 有 两 个 概念 或 主题 与 此 数据 集 相 关联 。 我 们 看 
看 能 否 通 过 观察 图 中 的 0 来 找到 这 个 矩阵 的 具体 概念 。 观 察 一 下 右 图 的 阴影 
部 分 ， 看 起 来 Ed、Peter 和 Tracy 对 “ 烤 牛 肉 ” 和 “ 手 撕 猪肉 ”进行 了 评级 ， 同 时 
这 三 人 未 对 其 他 菜 评级 。 烤 牛肉 和 手 撕 猪肉 部 是 美式 烧烤 和 换 馆 才 有 的 末 ， 
其 他 菜 则 在 日 式 餐 馆 才 有 。 


我 们 可 以 把 奇异 值 想 象 成 一 个 新 空间 。 与 图 14-1 中 的 矩阵 给 出 的 五 维 或 者 七 
维 不 同 ， 我 们 最 终 的 矩阵 只 有 二 维 。 那 么 这 二 维 分 别 是 什么 昵 ? 它们 能 告 
诉 我 们 数据 的 什么 信息 ? 这 二 维 分 别 对 应 图 中 给 出 的 两 个 组 ， 右 图 中 已 经 
标示 出 了 其 中 的 一 个 组 。 我 们 可 以 基于 每 个 组 的 共同 特征 来 命名 这 二 维 ， 
比如 我 们 得 到 的 美式 BBQ 和 日 式 食品 这 二 维 。 


如 何 才 能 将 原始 数据 变换 到 上 述 新 空间 中 呢 ? 下 一 节 我 们 将 会 进一步 详细 
地 介绍 SVD， 届 时 将 会 了 解 到 SVD 是 如 何 得 到 u 和 v 两 个 矩阵 的 。 vr 
和 矩阵 会 将 用 户 映射 到 BBQ/ 日 式 食品 空间 去 。 类 似 地 ，U 和 窜 阵 会 将 餐馆 的 菜 
映射 到 BBQ/ 日 式 食品 空间 去 。 真 实 的 数据 通常 不 会 像 图 14-1 中 的 矩阵 那样 
稠密 或 整齐 ， 这 里 如 此 只 是 为 了 便于 说 明 问 题 。 


推荐 引擎 中 可 能 会 有 噪声 数据 ， 比 如 某 个 人 对 某 些 菜 的 评级 殉 可 能 存在 品 
声 ， 并 且 推 荐 系统 也 可 以 将 数据 抽取 为 这 些 基 本 主题 。 基 于 这 些 主题 ， 推 
存 系 统 束 能 取得 比 原始 数据 更 好 的 推荐 效果 。 在 2006 年 末 ， 电 影 公司 Netflix 


曾经 举办 了 一 个 奖金 为 100 万 美元 的 大 赛 ， 这 笔 奖金 会 颁 给 比 当时 最 好 系统 
还 要 好 10% 的 推荐 系统 的 参赛 者 。 最 后 的 获奖 者 就 使 用 了 SVD，。 


下 一 太 将 介绍 SVD 的 一 些 背 景 材料 ， 接 着 给 出 利用 Python 的 NumPy 实 现 
SVD 的 过 程 。 然 后 ， 我 们 将 进一步 深入 讨论 推荐 引擎 。 当 对 推荐 引擎 有 相 
当 的 了 解 之 后 ， 我 们 束 会 利用 SVD 构 建 一 个 推荐 系统 。 


SVD 和 十 矩阵 分 解 的 一 种 类 型 ， 而 矩阵 分 解 征 将 数据 矩阵 分 解 为 多 个 独立 间 
分 的 过 程 。 接 下 来 我 们 首先 介绍 矩阵 分 解 。 


1. Yehuda Koren, “The BellKor Solution to the Netflix Grand Prize," August 2009; http://www.netflixprize.com/assets/GrandPrize2009_BPC_BellKor.pdf. 


14.2 ”和 矩阵 分 解 


在 很 多 情况 下 ， 数 据 中 的 一 小 段 携带 了 数据 集中 的 大 部 分 信息 ， 其 他 信息 
则 要 么 是 噪声 ， 要 么 就 是 宫 不 相关 的 信息 。 在 线性 代数 中 还 有 很 多 矩阵 分 
解 技 术 。 和 矩阵 分 解 可 以 将 原始 矩阵 表示 成 新 的 易于 处 理 的 形式 ， 这 种 新 形 
式 是 两 个 或 多 个 矩阵 的 乘积 。 我 们 可 以 将 这 种 分 解 过 程 想 象 成 代数 中 的 因 
分 解 。 如 何 将 12 分 解 成 两 个 数 的 乘积 ? (1,12)、(2,6) 和 (3,4) 都 是 合理 的 答 


子 
案 。 


不 同 的 矩阵 分 解 技术 具有 不 同 的 性 质 ， 其 中 有 些 更 适合 于 某 个 应 用 ， 有 些 
则 更 适合 于 其 他 应 用 。 最 常见 的 一 种 矩阵 分 解 技 术 就 是 SVD。SVD 将 原始 
的 数据 集 和 矩阵 Data 分 解 成 三 个 矩阵 u ^ zr Al vr。 如 果 原 始 和 矩阵 Data 
míny), JA u ^ z 和 Vv 就 分 别 是 m 行 m 列 、m 行 n 列 和 n 行 np 列 。 为 了 
清晰 起 见 ， 上 述 过 程 可 以 写成 如 下 一 行 (下 标 为 矩阵 维 数 ) : 


ges T jd 
Data mxn =- J 


J 
mxm *—mxn nxn 


上 上 述 分 解 中 会 构建 出 一 个 矩阵 z ， 该 矩阵 只 有 对 角 元 素 ， 其 他 元 素 均 为 
0。 男 一 个 惯例 束 是 ， zr 的 对 角 元 素 是 从 大 到 小 排列 的 。 这 些 对 角 元 素 称 
为 奇异 值 (Singular Value) ， 它 们 对 应 了 原始 数据 集 算 阵 Data 的 奇异 
值 。 回 想 上 一 章 的 PCA， 我 们 得 到 的 是 矩阵 的 特征 值 ， 它 们 告诉 我 们 数据 
集中 的 重要 特征 。 z 中 的 奇异 值 也 是 如 此 。 奇 异 值 和 特征 值 是 有 关系 的 。 
这 里 的 奇异 值 就 是 矩阵 Data * Data * 特征 值 的 平方 根 。 


前 面 提 到 过 ， 和 矩阵 z 只 有 从 大 到 小 排列 的 对 角 元 素 。 在 科学 和 工程 中 ， 一 
直 存 在 这 样 一 个 普遍 事实 ， 在 某 个 奇异 值 的 数目 (r 个 ) Zia, Aa eae 


值 都 置 为 0。 这 就 意味 着 数据 集中 仅 有 r 个 重要 特征 ， 而 其 余 特 征 则 都 是 品 
声 或 见 余 特征 。 在 下 一 节 中 ， 我 们 将 看 到 一 个 可 靠 的 案例 。 


我 们 不 必 担 心 该 如 何 进行 窍 阵 分 解 。 在 下 一 节 中 束 会 所 到 ， 在 NumPy 线 性 
代数 库 中 有 一 个 实现 SVD 的 方法 。 如 果 读 者 对 SVD 的 编程 实现 感 兴趣 的 
话 ， 请 阅读 Numerical Linear Algebra' ° 


1. L. Trefethen and D. Bau III, Numerical Linear Algebra (SIAM: Society for Industrial and Applied Mathematics, 1997). 


14.3 ”利用 Python 实现 SVD 

如 果 SVD 确 实 那 么 好 ， 那 么 该 如 何 实现 它 昵 ?SVD 实现 了 相关 的 线性 代 
数 ， 但 这 并 不 在 本 书 的 讨论 范围 之 内 。 其 实 ， 有 很 多 软件 包 可 以 实现 
SVD。NumPy 有 一 个 称 为 linalg 的 线性 代数 工具 箱 。 接 下 来 ， 我 们 了 解 一 下 
如 何 利 用 该 工具 箱 实 现 如 下 和 矩阵 的 SVD 处 理 : 


^ 


要 在 Python 上 实现 该 矩阵 的 SVD 处 理 ， 请 键入 如 下 命令 : 


>>> from numpy import * 


>>> U,Sigma, VT=linalg.svd([[1, 1],[7, 7]]) 


fae PRM AY ATER Be ABER EHT: 
>>> U 
array([[-0.14142136, -0.98994949], 
[-0.98994949, 0.14142136]]) 
>>> Sigma 
array([ 10., 0.]) 


>>> VT 


array([[-0.70710678, -0.70710678], 


[-0.70710678, 0.70710678]]) 


EUER |, FEMEsigma 以 行 问 量 array([ 10., 0.]) WRI, MARUI Pag 


array([[ 10., 0.], 


[ ©., 0.]]). 


由 于 窍 阵 除了 对 角 元 素 其 他 均 为 0， 因 此 这 种 仅 返 回 对 角 元 素 的 方式 能 够 和 
省 空间 ， 这 了 驶 是 由 NumPy 的 内 部 机 制 产 生 的 。 我 们 所 要 记 住 的 是 ， 一 旦 看 
Ta SLSEADB E x— PE FT, BERR ETE PAE 
上 进行 更 多 的 分 解 。 


建立 一 个 新 文件 svdRec .py 并 加 入 如 下 代码 : 


def loadExData(): 

return[[1, 1, 1, 0, 0], 
[2, 2, 2, 0, 0], 
[1, 1, 1, ©, 0], 


[5, 5, 5, 6, 6], 


接 下 来 我 们 对 该 矩阵 进行 SVD 分 解 。 在 保存 好 文件 svdRec.py 之 后 ， 我 们 在 
Python 提示 符 下 输入 : 


>>> import svdRec 

>>> Data-svdRec.loadExData() 
>>> U,Sigma, VT=linalg.svd(Data) 
>>> Sigma 


array([ 9.72140007e+00, 5.29397912e+00, 6.84226362e-01,7.16251492e-16, 4.85169600e- 
32]) 


前 3 个 数值 比 其 他 的 值 大 了 很 多 (如 果 你 的 最 后 两 个 值 的 结果 与 这 里 的 结果 
稍 有 不 同 ， 也 不 必 担 心 。 它 们 太 小 了 ， 所 以 在 不 同 机 器 上 产生 的 结果 束 可 
能 会 稍 有 不 同 ， 但 是 数量 级 应 该 和 这 里 的 结果 差不多 ) 。 于 是 ， 我 们 就 可 
以 将 最 后 两 个 值 去 掉 了 。 


接 下 来 ， 我 们 的 原始 数据 集束 可 以 用 如 下 结 打 来 近似 : 


FRONS T 
Data pn ie U wa 3.3 V 


3xn 


图 14-2 就 是 上 述 近 似 计算 的 一 个 示意 图 。 


NN 


x 
Data U 


图 14-2 ”SVD 的 示意 图 。 和 矩阵 Data 被 分 解 。 浅 灰色 区 域 是 原始 数据 ， 深 灰 
色 区 域 是 矩阵 近似 计算 仅 需要 的 数据 


我 们 试图 重 构 原 始 和 矩阵 。 首 移 构 建 一 个 3x3 的 和 矩阵 sigs : 


>>> Sig3-mat([[Sigma[0], ©, 0],[O, Sigma[1], ©], [0, ©, Sigma[2]]]) 


接 下 来 我 们 重 构 原始 矩阵 的 近似 矩阵 。 由 于 sig3 仅 为 3x3 和 矩阵， 我 们 只 需 使 
用 矩阵 U 的 前 3 列 和 VT 的 前 3 行 。 在 Python 中 实现 这 一 点 ， 输 入 命令 : 


>>> U[:,:3]*Sig3*VT[:3,:] 


array([[ 1., 1., 1., ©, © 7h 
[ 2 2 2 9 9. ] 
[1 1 Lic) 0 9. ] 
[ 5 5 5., 0 9. ] 
[ 1 1 -0., 2 2. ] 
[ 6 9 -0., 3 31 
[ 0 0 0 1., 1. ]]) 


我 们 是 如 何 知道 仅 需 保留 前 3 个 奇异 值 的 呢 ? 确定 要 保留 的 奇异 值 的 数目 有 
很 多 启发 式 的 策略 ， 其 中 一 个 典型 的 做 法 就 是 保留 矩阵 中 90% 的 能 量 信 息 。 
为 了 计算 总 能 量 信 息 ， 我 们 将 所 有 的 奇异 值 求 其 平方 和 。 于 是 可 以 将 奇异 
值 的 平方 和 累加 到 总 值 的 90% 为 止 。 另 一 个 启发 式 策略 就 是 ， 当 和 矩阵 上 有 上 
万 的 奇异 值 时 ， 那 么 就 保留 前 面 的 2000 或 3000 个 。 尽 管 后 一 种 方法 不 太 优 
雅 ， 但 是 在 实际 中 更 容易 实施 。 之 所 以 说 它 不 够 优雅 ， 就 是 因为 在 任何 数 
据 集 上 都 不 能 保证 前 3000 个 奇异 值 就 能 够 包含 90% 的 能 量 信息 。 但 在 通常 情 
De eee ean ree eee 


现在 我 们 已 经 通过 三 个 矩阵 对 原始 矩阵 进行 了 近似 。 我 们 可 以 用 一 个 小 很 


多 的 矩阵 来 表示 一 个 大 矩阵 。 有 很 多 应 用 可 以 通过 SVD 来 提升 性 能 。 下 面 
我 们 将 讨论 一 个 比较 流行 的 SVD 应 用 的 例子 一 一 推荐 引擎 。 


144 ”基于 协同 过 滤 的 推荐 引擎 


近 十 年 来 ， 推 荐 引擎 对 因特网 用 户 而 言 已 经 不 是 什么 新 鲜 事物 了 。Amazon 
会 根据 顾客 的 购买 历史 向 他 们 推荐 物品 ，Netflix 会 向 其 用 户 推荐 电影 ， 新 闻 
网 站 会 对 用 户 推 荐 新 闻 报道 ， 这 样 的 例子 还 有 很 多 很 多 。 当 然 ， 有 很 多 方 
法 可 以 实现 推荐 功能 ， 这 里 我 们 只 使 用 一 种 称 为 协同 过 滤 (collaborative 
a 的 方法 。 协 同 过 滤 是 通过 将 用 户 和 其 他 用 户 的 数据 进行 对 比 来 实 
现 推荐 的 。 


这 里 的 数据 是 从 概念 上 组 织 成 了 类 似 图 14-2 所 给 出 的 矩阵 形式 。 当 数据 采用 
这 种 方式 进行 组 织 时 ， 我 们 惑 可 以 比较 用 户 或 物品 之 间 的 相似 度 了 。 这 两 
种 做 法 都 会 使 用 我 们 很 快 就 介绍 到 的 相似 度 的 概念 。 当 知道 了 两 个 用 户 或 
两 个 物品 之 间 的 相似 度 ， 我 们 就 可 以 利用 已 有 的 数据 来 预测 未 知 的 用 户 喜 
好 。 例 如 ， 我 们 试图 对 某 个 用 户 喜欢 的 电影 进行 了 预测， 推荐 引擎 会 发 现 有 
一 部 电影 该 用 户 还 没 看 过 。 然 后 ， 它 殉 会 计算 该 电影 和 用 户 看 过 的 电影 

间 的 相似 度 ， 如 果 其 相似 度 很 高 ， 推 荐 算法 就 会 认为 用 户 喜 欢 这 部 电影 。 


在 上 述 场 景 下 ， 唯 一 所 需要 的 数学 方法 就 是 相似 度 的 计算 ， 这 并 不 是 很 
难 。 接 下 来 ， 我 们 首先 讨论 物品 之 间 的 相似 度 计 算 ， 然 后 讨论 在 基于 物品 
和 基于 用 户 的 相似 度 计 算 之 间 的 折 中 。 最 后 ， 我 们 介绍 推荐 引擎 成 功 的 度 


量 方法 。 


14.4.1 ”相似 度 计算 


我 们 希望 拥有 一 些 物 品 之 间 相 似 度 的 定量 方法 。 那 么 如 何 找 出 这 些 方法 

We? 倘若 我 们 面 对 的 是 食品 销售 网 站 ， 该 如 何 处 理 ? 或 许可 以 根据 食品 的 
配料 、 热 量 、 某 个 亮 调 类 型 的 定义 或 者 其 他 类 似 的 信息 进行 相似 度 的 计 

算 。 现 在 ， 假 设 该 网 站 想 把 业务 拓展 到 和 餐具 行业 ， 那 么 会 用 热量 来 描述 一 
ALFI? [Ale ABER LET H Ft ale vi BY Je EA See TB E6 Pr 
AE © ERINE Sh PR TIEN?! 我 们 不 利用 专家 
所 给 出 的 重要 属性 来 描述 物品 从 而 计算 它们 之 间 的 相似 度 ， 而 是 利用 用 户 
对 它们 的 意见 来 计算 相似 度 。 这 就 是 协同 过 滤 中 所 使 用 的 方法 。 它 并 不 关 
心 物 品 的 描述 属性 ， 而 是 严格 地 按照 许多 用 户 的 观点 来 计算 相似 度 。 图 14-3 
给 出 了 由 一 些 用 户 及 其 对 前 面 给 出 的 部 分 菜肴 的 评级 信息 所 组 成 的 矩阵 。 


H 
p = 
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图 14-3 ”用 于 展示 相似 度 计算 的 简单 矩阵 


我 们 计算 一 下 手 撕 猪肉 和 烤 牛 肉 之 间 的 相似 度 。 一 开始 我 们 使 用 欧 氏 距离 
来 计算 。 手 所 猪肉 和 烤 牛 肉 的 欧 氏 距离 为 : 


(4-47+(G-37+(2-D =1 


而 手 撕 猪 肉 和 鳗鱼 饭 的 欧 氏 距离 为 : 


(4-2) 4 (3-5y +(2—2) =2.83 


在 该 数据 中 ， 由 于 手 撕 猪肉 和 烤 牛 肉 的 距离 小 于 手 撕 猪 内 和 鳗鱼 饭 的 距 
离 ， 因 此 手 撕 猪 肉 与 烤 牛 肉 比 与 鳗鱼 饭 更 为 相似 。 我 们 希望 ， 相 似 度 值 在 0 
到 1 之 间 变 化 ， 并 且 物 品 对 越 相 似 ， 它 们 的 相似 度 值 也 就 越 大 。 我 们 可 以 用 
相似 度 =1(1+ 距 离 ) 这 样 的 算式 来 计算 相似 度 。 当 距离 为 0 时 ， 相 似 度 为 1.0。 
如 果 距 离 真 的 非常 大 上 时， 相似 度 也 就 趋 近 于 0。 


第 二 种 计算 距离 的 方法 是 皮尔 还 相关 系数 (Pearson correlation) 。 我 们 在 
第 8 章 度量 回归 方程 的 精度 时 曾经 用 到 过 这 个 量 ， 它 度量 的 是 两 个 向 量 之 间 
的 相似 度 。 该 方法 相对 于 欧 氏 距离 的 一 个 优势 在 于 ， 它 对 用 户 评级 的 量 级 
并 不 敏感 。 比 如 某 个 狂躁 者 对 所 有 物品 的 评分 都 是 5 分 ， 而 另 一 个 忧郁 者 对 
所 有 物品 的 评分 都 是 1 分 ， 皮 尔 逊 相关 系数 会 认为 这 两 个 向 量 是 相等 的 。 在 
NumPy 中 ， 皮 尔 逊 相关 系数 的 计算 是 由 画 数 corrcoef() 进行 的 ， 后 面 我 们 
很 快 就 会 用 到 它 了 。 皮 尔 撑 相关 系数 的 取 值 范围 从 -1 到 +1， 我 们 通过 6.5 + 
9.5*corrcoef() 这 个 函数 计算 ， 并 且 把 其 取 值 范围 归 一 化 到 0 到 1 之 间 。 


另 一 个 常用 的 距离 计算 方法 就 是 余弦 相似 度 (cosine similarity) ， 其 计算 
的 是 两 个 向 量 夹 角 的 余弦 值 。 如 果 夹 角 为 90 度 ， 则 相似 度 为 0， 如 果 两 个 向 


量 的 方向 相同 ， 则 相似 度 为 1.0。 同 皮尔 逊 相关 系数 一 样 ， 余 弦 相 似 度 的 取 
值 范围 也 在 -1 到 +1 之 间 ， 因 此 我 们 也 将 它 归 一 化 到 0 到 1 之 间 。 计 算 余 弦 相 
似 度 值 ， 我 们 采用 的 两 个 向 量 A MB 夹 角 的 余弦 相似 度 的 定义 如 下 : 


A: B 
cos @ = — —- 
IIIB] 


EH, Al IB]ESAHZA ^ BB2YRAN, RA Ace Eye, [H 
是 如 果 不 指 定 范 数 阶 数 ， 则 都 假设 为 2 范 数 。 向 量 [4,2,2] 的 2 范 数 为 : 


同样 ，NumPy 的 线性 代数 工具 箱 中 提供 了 范 数 的 计算 方法 linalg.norm()。 


接 下 来 我 们 将 上 述 各 种 相似 度 的 计算 方法 写成 Python 中 的 函数 。 打 开 
svdRec. py 文件 并 加 入 下 列 代 码 。 


程序 清单 14-1 ”相似 度 计 算 


from numpy import * 


from numpy import linalg as la 


def ecludSim(inA,inB): 


return 1.0/(1.0 + la.norm(inA - inB)) 


def pearsSim(inA,inB): 


if len(inA) « 3 : return 1.0 


return 0.5+0.5*corrcoef(inA, inB, rowvar = 0)[0][1] 


def cosSim(inA,inB): 
num = float(inA.T*inB) 
denom - la.norm(inA)*la.norm(inB) 


return 0.5+0.5*(num/denom) 


FEF PAIA Ex BU ee TE PE SUR LPP RAT EZ T o 


为 了 便于 理解 ， 


NumpPy 的 线性 代数 工具 箱 linalg 被 作为 1a SA, Kirt Eina Mins 都 是 


列 向 量 。perassim() 函数 会 检查 是 否 存 在 3 个 或 更 多 的 点 。 
函数 返回 1.0， 这 是 因为 此 时 两 个 向 量 完全 相关 。 


如 采 不 存在 ， 该 


下 面 我 们 对 上 述 画 数 过 井 行 符 试 。 在 保存 好 文件 svdRec.py 之 后 ， 在 Python 提 


示 符 下 输入 如 下 命令 : 
>>> reload(svdRec) 
«module 'svdRec' from 'svdRec.pyc'» 
>>> myMat-mat(svdRec.loadExData()) 
>>> svdRec.ecludSim(myMat[:,0],myMat[:,4]) 
0.12973190755680383 
>>> svdRec.ecludSim(myMat[:,0],myMat[:,0]) 


1.0 


欧 氏 距离 看 上 去 还 行 ， 那 么 接 下 来 试 试 余弦 相似 度 : 


>>> svdRec.cosSim(myMat[:,0],myMat[:,4]) 


0.5 


>>> svdRec.cosSim(myMat[:,0],myMat[:,0]) 


1.0000000000000002 


余弦 相似 度 似乎 也 行 ， 避 ® 再 试 试 皮 尔 进 相关 系数 : 


>>> svdRec.pearsSim(myMat[:,0],myMat[:,4]) 


0.20596538173840329>>> svdRec.pearsSim(myMat[:,0],myMat[:,0]) 


1.0 


上 面 的 相似 度 计算 都 是 假设 数据 采用 了 列 向 量 方式 进 行 表 示 。 如 果 利 用 上 
述 琅 数 来 计算 两 个 行 回 量 的 相似 度 束 会 通 到 问题 (我 们 很 容易 对 上 述 函 数 
进行 修改 以 计算 行 向 量 之 间 的 相似 度 ) 。 这 里 采用 列 向 量 的 表示 方法 ， 瞳 
人 后 面 我 们 会 阐述 其 中 的 原 


14.4.2 ”基于 物品 的 相似 度 还 是 基于 用 户 的 相似 度 ? 


ERE TUN 馆 菜 着 之 间 的 距离 ， 这 称 为 基于 物品 (item-based) 的 相 
似 度 。 另 一 种 计算 用 户 距 离 的 方法 则 称 为 基于 用 户  (user-based) 的 相似 

度 。 回 到 图 14.3， 行 与 行 之 间 比 较 的 是 基于 用 户 的 相似 度 ， 列 与 列 之 间 比 较 
的 则 是 基于 物品 的 相似 度 。 到 底 使 用 哪 一 种 相似 度 昵 ? 这 取决 于 用 户 或 物 
品 的 数目 。 基 于 物品 相似 度 计 算 的 时 间 会 随 物品 数量 的 增加 而 增加 ， 基 于 
用 户 的 相似 度 计算 的 时 间 则 会 随 用 户 数 量 的 增加 而 增加 。 如 果 我 们 有 一 个 
商店 ， 那 么 最 多 会 有 几 千 件 商 品 。 在 撰写 本 书 之 际 ， 最 大 的 商店 大 概 有 100 
000 件 商品 。 而 在 Netflix 大 赛 中 ， 则 会 有 480 000 个 用 户 和 17 700 部 电影 。 如 
A 

1 o 


对 于 大 部 分 产品 导 回 的 推荐 引擎 而 言 ， 用 户 的 数量 往往 大 于 物品 的 数量 ， 
即 购 买 商品 的 用 户 数 会 多 于 出 售 的 商品 种 类 。 


14.43 ”推荐 引擎 的 评价 


如 何 对 推荐 引擎 进行 评价 呢 ? 此 时 ， 我 们 既 没 有 预测 的 目标 值 ， 也 没有 用 
户 来 调查 他 们 对 预测 的 满意 程度 。 这 里 我 们 就 可 以 采用 前 面 多 次 使 用 的 交 
叉 测 试 的 方法 。 具 体 的 做 法 就 是 ， 我 们 将 某 些 已 知 的 评分 值 去 挥 ， 然 后 对 
它们 进行 预测 ， 最 后 计算 预测 值 和 真实 值 之 间 的 差异 。 


通常 用 于 推荐 引 警 评价 的 指标 是 称 为 最 小 均 方 根 误差 (Root Mean Squared 
Error, RMSE) 的 指标 ， 它 首先 计算 均 方 误差 的 乎 均值 然后 取 其 平方 根 。 如 
果 评 级 在 1 星 到 5 星 这 个 范围 内 ， 而 我 们 得 到 的 RMSE 为 1.0， 那 么 就 意味 着 
我 们 的 预测 值 和 用 户 给 出 的 真实 评价 相差 了 一 个 星 级 。 


145 示例 ， 餐馆 荣 看 推荐 引擎 


现在 我 们 就 开始 构建 一 个 推荐 引 敬 ， 该 推荐 引擎 天 注 的 是 餐馆 食物 的 推 
荐 。 假 设 一 个 人 在 家 决定 外 出 吃饭 ， 但 是 他 并 不 知道 该 到 哪儿 去 吃饭 ， 访 
点 什么 全 。 我 们 这 个 推荐 系统 可 以 帮 他 做 到 这 两 点 。 


首先 我 们 构建 一 个 基本 的 推荐 引 警 ， 它 能 够 寻找 用 户 没 有 尝 过 的 菜肴 。 然 
后 ， 通 过 SVD 来 减少 特征 空 s 间 并 提高 推荐 的 效果 。 这 之 后 ， 将 程序 打包 并 
通过 用 户 可 读 的 人 机 界面 提供 给 人 们 使 用 。 最 后 ， 我 们 介绍 在 构建 推荐 系 
统 时 面临 的 一 些 问题 。 

14.5.1 “推荐 未 党 过 的 菜肴 


推荐 系统 的 工作 过 程 是 : 给 定 一 个 用 户 ， 系 统 会 为 此 用 户 返 回 N 个 最 好 的 
推荐 菜 。 为 了 实现 这 一 点 ， 则 需要 我 们 做 到 : 


1. 寻找 用 户 没 有 评级 的 荣 看 ， 即 在 用 户 一 物品 窍 阵 中 的 0 值 ; 

2. 在 用 户 没有 评级 的 所 有 物品 中 ， 对 每 个 物品 预计 一 个 可 能 的 评级 分 
cd 我 们 认为 用 户 可 能 会 对 物品 的 打分 (这 就 是 相似 度 计 

3. 对 这 些 物 品 的 评分 从 高 到 低 进 行 排序 ， 返 回 前 N 个 物品 。 


人 


程序 清单 14-2 ”基于 物品 相似 度 的 推荐 引擎 


def standEst(dataMat, user, simMeas, item): 
n = shape(dataMat)[1] 
simTotal = 0.0; ratSimTotal = 0.0 


for j in range(n): 


def 


userRating = dataMat[user,j] 


if userRating -- 0: continue 


#@ 寻找 两 个 用 户 都 评级 的 物品 


overLap = nonzero(logical and(dataMat[:,item].A»0, dataMat[:,j].A>0))[0] 


if len(overLap) == 0: similarity = 0 


else: similarity = simMeas(dataMat[overLap, item], dataMat[overLap, j]) 


#print 'the %d and %d similarity is: %f' % (item, j, similarity) 


simTotal += similarity 


ratSimTotal += similarity * userRating 


if simTotal == 0: return 0 


else: return ratSimTotal/simTotal 


recommend(dataMat, user, N=3, simMeas=cosSim, estMethod=standEst): 


BO 寻找 未 评级 的 物品 


unratedItems = nonzero(dataMat[user,:].A--0)[1] 


if len(unratedItems) -- 0: return 'you rated everything' 


itemScores - [] 


for item in unratedItems: 


estimatedScore - estMethod(dataMat, user, simMeas, item) 


itemScores.append((item, estimatedScore)) 


#O 寻找 前 N 个 未 评级 物品 


return sorted(itemScores, key-lambda jj: jj[1], reverse=True)[:N] 


上 述 程序 包含 了 两 个 函数 al 第 一 个 函数 是 standEst() 用 来 计算 在 给 定 相 
似 度 计 算 方 法 的 条 件 下 ， 用 户 对 物品 的 估计 评分 值 。 第 二 个 函数 是 
recommend() , 也 就 是 推荐 引擎 ， 它 会 调用 standEst() 函数 4 我 们 先 讨 论 
standEst() 函数 ， 然后 讨论 recommend ( ) 函数 o 


函数 standEst () 的 参数 包括 数据 和 矩阵、 用户 编号 、 物 品 编号 和 相似 度 计算 
方法 。 假 设 这 里 的 数据 矩阵 为 图 14-1 和 图 14-2 的 形式 ， 即 行 对 应 用 户 、 列 对 
应 物品 。 那么 ， 我 们 首先 会 得 到 数据 集中 的 物品 数目 ， 然 后 对 两 个 后 面 用 
于 计算 合计 评分 值 的 变量 进行 初始 化 。 接 着， 我 们 过 有 历 行 中 的 每 个 物品 。 

如 果 某 个 物品 评分 值 为 0， 束 意味 着 用 户 没有 对 该 物品 评分 ， 跳 过 了 这 个 物 
品 。 该 循环 大 体 上 是 对 用 户 评 过 分 的 每 个 物品 进行 过 历 ， 并 将 它 和 其 他 物 
品 进行 比较 。 变 量 overLap 给 出 的 是 两 个 物品 当中 已 经 被 评分 的 那个 元 素 

O° 如 果 两 者 没有 任何 重合 元 素 ， 则 相似 度 为 0 且 中 止 本 次 循环 。 但 是 如 果 
存在 重合 的 物品 ， 则 基于 这 些 重 合 物品 计算 相似 度 。 随 后 ， 相 似 度 会 不 断 
索 加 ， 每 次 计算 时 还 考虑 相似 度 和 当前 用 户 评 分 的 乘积 。 最 后 ， 通 过 除 以 
所 有 的 评分 总 和 ， 对 上 述 相似 度 评分 的 乘积 进行 归 一 化 。 这 就 可 以 使 得 最 
后 的 评分 值 在 0 到 5 之 间 ， 而 这 些 评分 值 则 用 于 对 预测 值 进行 排序 。 


函数 recommend ) 产生 了 最 高 的 N 个 推荐 结果 。 如 果 不 指 定 N 的 大 小 ， 则 默 
认 值 为 9。 该 函数 另外 的 参数 还 包括 相似 度 计 算 方 法 和 估计 方法 。 我 们 可 以 
使 用 程序 清单 14-1 中 的 任意 一 种 相似 度 计算 方法 。 此 时 我 们 能 采用 的 估计 方 
法 只 有 一 种 选择 ， 但 是 在 下 一 小 下 中 会 增加 另外 一 种 选择 。 该 函数 的 第 一 
件 事 瓯 是 对 给 定 的 用 户 建立 一 个 未 评分 的 物品 列表 四 。 如 果 不 存 在 未 评分 
Din, BARIRM HAN; 否则 ， 在 所 有 的 未 评分 物品 上 进行 循环 。 对 每 个 
未 评分 物品 ， 则 通过 调用 standEst() 来 产生 该 物品 的 预测 得 分 。 该 物品 的 
编号 和 估计 得 分 值 会 放 在 一 个 元 素 列 表 itemscores 中 。 最 后 按照 估计 得 
分 ， 对 该 列表 进行 排序 并 返回 目 。 该 列表 是 从 大 到 小 逆序 排列 的 ， 因 此 其 
第 一 个 值 束 是 最 大 值 。 


接 下 来 看 看 它 的 实际 运行 效果 。 在 保存 svdRec .py 文件 之 后 ， 在 Python 提示 
符 下 输入 命令 : 


>>> reload(svdRec) 


«module 'svdRec' from 'svdRec.py'> 


下 面 ， 我 们 调 入 了 一 个 矩阵 实例 ， 可 以 对 本 半 前 面 给 出 的 矩阵 稍 加 修改 后 
加 以 使 用 。 首 先 ， 调 入 原始 矩阵 : 


>>> myMatzmat(svdRec.loadExData()) 


该 矩阵 对 于 展示 SVD 的 作用 非常 好 ， 但 是 它 本 吴 不 是 十 分 有 趣 ， 因 此 我 们 
要 对 其 中 的 一 些 值 进行 更 改 : 


>>> myMat[0,1]-myMat[0,0]-2myMat[1,0]-myMat[2,0]-4 


>>> myMat[3,3]-2 


现在 得 到 的 矩阵 如 下 : 
>>> myMat 


matrix([[4, 4, 0, 2, 2], 


[4, 9, 0, 1, 1], 


[1, 1, 1, 2, 9], 


[5, 5, 5, ©, 0]]) 


APT, MERE MEET » REZI BREE: 


>>> svdRec.recommend(myMat, 2) 


[(2, 2.5000000000000004), (1, 2.0498713655614456)] 


这 表明 了 用 户 2 〈 由 于 我 们 从 0 开始 计数 ， 因 此 这 对 应 了 矩阵 的 第 3 行 ) 对 物 
品 2 的 预测 评分 值 为 5， 对 物品 1 的 预测 评分 值 为 2.05。 下 面 我 们 束 利 用 其 
他 的 相似 度 计算 方法 来 进行 推荐 : 

>>> svdRec.recommend(myMat, 2, simMeas-svdRec.ecludSim) 

[(2, 3.0), (1, 2.8266504712098603) ] 


>>> svdRec.recommend(myMat, 2, simMeas=svdRec.pearsSim) 


[(2, 2.5), (1, 2.0)] 


我 们 可 以 对 多 个 用 户 进行 尝试 ， 或 者 对 数据 集 做 些 修改 来 了 解 其 给 预测 结 
果 市 来 的 变化 。 


这 个 例子 给 出 了 如 何 利用 基于 物品 相似 度 和 多 个 相似 度 计算 方法 来 进行 推 
存 的 过 程 ， 下 面 我 们 介绍 如 何 将 SVD 应 用 于 推荐 。 


14.5.2 ”利用 SVD 提 高 推荐 的 效果 


实际 的 数据 集会 比 我 们 用 于 展示 recommend( ) 函数 功能 的 myMat AED Pi iB eg: 
Z ° Ali4-4gi2za HI SS ASBMB e 


H RM. UR" KK 
X x X Eom Wo m 
M 炸 OX 烤 鱼 E uw R NE. 
ffi 39 mu + RW d$ u GB m» ix 
im HE hk A & oj o5 E T 中 & 
Brett | 2 0 0 4 4 0 0 0 0 0 0 
Rob |0 0 0 0 0 0 0 0 0 0 5 
Dew |0 0 0 0 0 0 0 1 0 4 0 
Scott [3 3 4 0 3 9 0 2 2 9 9 
Mary | 5 5 5 0 0 0 0 0 0 0 0 
Brent | 0 0 0 0 0 0 5 0 0 5 0 
Kyle | 4 0 4 0 0 0 0 0 0 0 5 
saa |0 0 0 G 于 *. 656 @ Ww OFA 
Shaney | 0 0 0 0 0 0 5 0 0 5 0 
Brendan 10 0 0 3 0 0 0 0 4 5 0 
Leanna 1 1 2 1 1 2 1 0 4 5 0 


图 14-4 ”一 个 更 大 的 用 户 一 菜肴 矩阵 ， 其 中 有 很 多 物品 都 没有 评分 ， 这 比 一 
个 全 填充 的 矩阵 更 接近 真实 情况 


我 们 可 以 将 该 矩阵 输入 到 程序 中 去 ， 或 者 从 下 载 代码 中 复制 函数 
loadExData2() 。 下 面 我 们 计算 该 矩阵 的 SVD 来 了 解 其 到 底 需 要 多 少 维特 


4 


4 o 


>>>from numpy import linalg as la 

>>> U,Sigma,VT-la.svd(mat(svdRec.loadExData2())) 

>>> Sigma 

array([ 1.38487021e+01, 1.15944583e+01, 1.10219767e+01, 
5.31737732e+00, 4.55477815e+00, 2.69935136e+00, 
1.53799905e+00, 6.46087828e-01, 4.45444850e-01, 


9.86019201e-02, 9.96558169e-17] ) 


fe BREA A BERR eo T at FH BEIA a eE% ° EC, XTsigma 
PEMER TA: 


>>> Sig2-Sigma**2 


再 计算 一 下 总 能 量 : 
>>> Sum(Sig2) 


541.99999999999932 


再 计算 总 能 量 的 90%6: 
>>> sum(Sig2)*0.9 


487.79999999999939 


然后 ， 计 算 前 两 个 元 素 所 包含 的 能 量 : 
>>> sum(Sig2[:2]) 


378.8295595113579 


该 值 低 于 总 能 量 的 90%， 于 是 计算 前 三 个 元 素 所 包含 的 能 量 : 


>>> sum(Sig2[:3]) 


500.50028912757909 


该 值 高 于 总 能 量 的 90%， 这 残 可 以 了 。 于 是 ， 我 们 可 以 将 一 个 11 维 的 矩阵 转 
换 成 一 个 3 维 的 矩阵 。 下 面 对 转 换 后 的 三 维 空间 构造 出 一 个 相似 度 计算 函 
数 。 我 们 利用 SVD 将 所 有 的 茉 看 映射 到 一 个 低 维 空间 中 去 。 在 低 维 空间 

下 ， 可 以 利用 前 面相 同 的 相似 度 计算 方法 来 进行 推荐 。 我 们 会 构造 出 一 个 
类 似 于 程序 清单 14-2 中 的 standEst() 函数 。 打开 svdRec.py 文件 并 加 入 如 下 
程序 清单 中 的 代码 o 


程序 清单 14-3 ”基于 SVD 的 评分 估计 


def svdEst(dataMat, user, simMeas, item): 


n = shape(dataMat) [1] 


simTotal = 0.0; ratSimTotal = 0.0 


U,Sigma,VT = la.svd(dataMat) 


#@ SDN BE 


Sig4 - mat(eye(4)*Sigma[:4]) 


#0 构建 转换 后 的 物品 
xformedItems = dataMat.T * U[:,:4] * Sig4.I 
for j in range(n): 
userRating = dataMat[user,j] 
if userRating -- 0 or j--item: continue 
similarity - simMeas(xformedItems[item,:].T,xformedItems[j,:].T) 
print 'the %d and %d similarity is: %f' % (item, j, similarity) 
simTotal += similarity 
ratSimTotal += similarity * userRating 
if simTotal -- 0: return 0 


else: return ratSimTotal/simTotal 


上 壕 程 序 中 包含 有 一 个 函数 svdEst() ° 4£ recommend( ) 中 ， CT HAL TUS 
换 对 standEst() IVA, BROT EH PAE maf F— P YEA TT 

值 。 如 果 将 该 函数 与 程序 清单 14-2 中 的 standEst() 函数 进行 比较 ， 就 会 发 现 
很 多 行 代 码 都 很 相似 。 该 函数 的 不 同 之 处 惑 在 于 它 在 第 3 行 对 数据 集 进 行 了 
SVD 分 解 。 在 SVD 分 解 之 后 ， 我 们 只 利用 包含 了 90% 能 量 值 的 奇异 值 ， 这 些 


奇异 值 会 以 NumPy 数 组 的 形式 得 以 保存 。 因 此 如 有 果 要 进行 矩阵 运算 ， 那 么 
束 必 须要 用 这 些 奇 异 值 构建 出 一 个 对 角 和 矩阵 @。 然 后 ， 利 用 u 矩阵 将 物品 
转换 到 低 维 空间 中 @。 


对 于 给 定 的 用 户 ，for 循环 在 用 户 对 应 行 的 所 有 元 素 上 进行 遍历 。 这 和 
standEst() 函数 中 的 for 循环 的 目的 一 样 ， 只 不 过 这 里 的 相似 度 计算 是 在 低 
维 空间 下 进行 的 。 相 似 度 的 计算 方法 也 会 作为 一 个 参数 传递 给 该 函数 。 然 
后 ， 我 们 对 相似 度 求 和 ， 同 时 对 相似 度 及 对 应 评分 值 的 乘积 求 和 。 这 些 值 
返回 之 后 则 用 于 估计 评分 的 计算 。for 循环 中 加 入 了 一 条 print 语句 ， 以 便 
能 够 了 解 相 似 度 计算 的 进展 情况 。 如 果 觉 得 这 些 输出 很 累 费 ， 也 可 以 将 该 


语句 注释 掉 。 


接 下 来 看 看 程序 的 执行 效果 。 将 程序 清单 14-3 中 的 代码 输入 到 文件 
svdRec.py 中 并 保存 之 后 ， 在 Python 提示 符 下 运行 如 下 命令 : 


>>> reload(svdRec) 
«module 'svdRec' from 'svdRec.pyc'» 
>>> svdRec.recommend(myMat, 1, estMethod-svdRec.svdEst) 


The © and 3 similarity is 0.362287. 


The 9 and 10 similarity is 0.497753. 


[(6, 3.387858021353602), (8, 3.3611246496054976), (7, 3.3587350221130028)] 


下 面 再 党 试 另 外 一 种 相似 度 计 算 方 法 : 
>>> svdRec.recommend(myMat, 1, estMethod-svdRec.svdEst, 


simMeas-svdRec.pearsSim) 


The © and 3 similarity is 0.116304. 


The 9 and 10 similarity is 0.566796. 


[(6, 3.3772856083690845), (9, 3.3701740601550196), (4, 3.3675118739831169)] 


我 们 还 可 以 再 用 其 他 多 种 相似 度 计 算 方 法 答 试 一 下 。 感 兴趣 的 读者 可 以 将 
人 


14.5.3 ”构建 推荐 引擎 面临 的 挑战 


本 市 的 代码 很 好 地 展示 出 了 推荐 引擎 的 工作 流程 以 及 SVD 将 数据 映 味 为 重 
要 特征 的 过 程 。 在 撰写 这 些 代码 时 ， 我 尽量 保证 它们 的 可 读 性 ， 但 是 并 不 
保证 代码 的 执行 效率 。 一 个 原因 是 ， 我 们 不 必 在 每 次 估计 评分 时 都 做 SVD 
分 解 。 对 于 上 述 数 据 集 ， 是 否 包 含 SVD 分 解 在 效率 上 没有 太 大 的 区 别 。 但 
征 在 更 大 规模 的 数据 集 上 ，SVD 分 解 会 降低 程序 的 速度 。SVD 分 解 可 以 在 
程序 调 入 时 运行 一 次 。 在 大 型 系统 中 ，SVD 每 天 运行 一 次 或 者 频率 更 低 ， 
并 且 还 要 离线 运行 。 


推荐 引擎 中 还 存在 其 他 很 多 规模 扩展 性 的 挑战 性 问题 ， 比 如 矩阵 的 表示 方 
法 。 在 上 面 给 出 的 例子 中 有 很 多 0， 实 际 系统 中 0 的 数目 更 多 。 也 许 ， 我 们 
可 以 通过 只 存储 非 零 元 素来 节省 内 存 和 计算 开销 ? FETT A 
浪费 则 来 自 于 相似 度 得 分 。 在 我 们 的 程序 中 ， 每 次 需要 一 个 推荐 得 分 时 ， 
都 要 计算 多 个 物品 的 相似 度 得 分 ， 这 些 得 分 记录 的 是 物品 之 间 的 相似 度 。 
因此 在 需要 时 ， 这 些 记录 可 以 被 男 一 个 用 户 重 复 使 用 。 在 实际 中 ， 男 一 个 
普遍 的 做 法 就 是 离线 计算 并 保存 相似 度 得 分 。 


推荐 引 警 面临 的 男 一 个 问题 束 是 如 何在 缺乏 数据 时 给 出 好 的 推荐 。 这 称 之 
为 冷 启动 (cold-start) 问题 ， 处 理 起 来 十 分 困难 。 这 个 问题 的 男 一 个 说 法 
是 ， 用 户 不 会 喜欢 一 个 无 效 的 物品 ， 而 用 户 不 喜欢 的 物品 文 无 效 。! 如 有 果 推 
存 只 是 一 个 可 有 可 无 的 功能 ， 那 么 上 述 问 题 倒 也 不 大 。 但 是 如 条 应 用 的 成 
劝 与 否 和 推荐 的 成 功 与 否 密切 相关 ， 那 么 问题 吏 变 得 相当 严重 了 。 


:也 就 是 说 ， 在 协同 过 滤 场 景 下 ， 由 于 新 物品 到 来 时 由 于 缺乏 所 有 用 户 对 其 
的 喜好 信息 ， 因 此 无 法 判断 每 个 用 户 对 其 的 喜好 。 而 无 法 判断 某 个 用 户 对 
其 的 喜好 ， 也 就 无 法 利用 该 商品 。 译 者 注 


冷 启动 问题 的 解决 方案 ， 束 是 将 推荐 看 成 是 搜索 问题 。 在 内 部 表现 上 ， 不 
同 由 解决 办 法 虽然 有 所 不 同 ， 但 是 对 用 户 而 言 却 都 十 站 明 的 。 为 了 料 推 全 
看 成 是 搜索 问题 ， 我 们 可 能 要 使 用 所 需要 推荐 物品 的 属性 。 在 餐馆 菜肴 的 
例子 中 ， 我 们 可 以 通过 各 种 标签 来 标记 菜肴 ， 比 如 素食 、 美 式 BBQ、 价 格 
很 贵 等 等 。 同 时 ， 我 们 也 可 以 将 这 些 属 性 作为 相似 度 计 算 所 需要 的 数据 ， 

这 被 称 为 基于 内 容 (content-based) 的 推荐 。 可 能 ， 基 于 内 容 的 推荐 并 不 如 
介绍 的 基于 协同 过 小 的 推荐 效果 好 ， 但 我 们 拥有 它 ， 这 束 是 个 民 


14.6 示例: 基于 SVD 的 图 像 压 缩 


在 本 市 中 ， 我 们 将 会 了 解 一 个 很 好 的 天 于 如 何 将 SVD 应 用 于 图 像 压 缩 的 例 
a 通过 可 视 化 的 方式 ， 该 例子 使 得 我 们 很 容易 束 能 看 到 SVD 对 数据 近似 
的 效果 。 在 代码 库 中 ， 我 们 包含 了 一 张 手写 的 数字 图 像 ， 该 图 像 在 第 2 章 使 
用 过 。 原 始 的 图 像 大 小 是 32x32=1024 像 素 ， 我 们 能 否 使 用 更 少 的 像素 来 表 
Deny were Bey Aletta, BBA HB] LAT eras RI Ss 97TH 
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我 们 可 以 使 用 SVD 来 对 数据 降 维 ， 从 而 实现 图 像 的 压缩 。 下 面 我 们 就 会 看 
到 利用 SVD 的 手写 数字 图 像 的 压缩 过 程 了 。 在 下 面 的 程序 清单 中 包含 了 数 
字 的 读 入 和 压缩 的 代码 。 要 了 解 最 后 的 压缩 效果 ， 我 们 对 压缩 后 的 图 像 进 
行 了 重 构 。 打 开 svdRec.py 文件 并 加 入 如 下 代码 。 


程序 清单 14-4 图像 压缩 画 数 


def printMat(inMat, thresh=0.8): 


for i in range(32): 


for k in range(32): 


if float(inMat[i,k]) > thresh: 


print 1, 


else: print 0, 


print '' 


def imgCompress(numSV=3, thresh=0.8): 


myl = [] 


for line in open('0O 5.txt').readlines(): 


newRow - [] 


for i in range(32): 


newRow.append(int(line[i])) 


myl.append(newRow) 


myMat = mat(myl) 


print "****original matrix******" 


printMat(myMat, thresh) 


U,Sigma,VT - la.svd(myMat) 


SigRecon = mat(zeros((numSV, numSV))) 


for k in range(numSV): 


SigRecon[k,k] = Sigma[k] 


reconMat = U[:, :numSV]*SigRecon*VT[:numSV, : ] 


print "****reconstructed matrix using %d singular values******" % numSV 


printMat(reconMat, thresh) 


上 述 程 序 中 第 一 个 函数 printMat () 的 作用 是 打印 矩阵 。 由 于 矩阵 包含 了 浮 

点 数 ， 因 此 必须 定义 浅 色 和 深 色 。 这 里 通过 一 个 国 值 来 只 定 ， 后 面 也 可 以 

。 该 函数 轴 历 所 有 的 矩阵 元 素 ， 当 元 素 大 于 国 值 时 打印 1， 否 则 打 
HO ° 


下 一 个 函数 实现 了 图 像 的 压缩 。 它 允许 基于 任意 给 定 的 奇异 值 数 目 来 重 构 
图 像 。 该 函数 构建 了 一 个 列表 ， 然 后 打开 文本 文件 ， 并 从 文件 中 以 数值 方 
式 读 入 字符 。 在 和 矩阵 调 入 之 后 ， 我 们 束 可 以 在 屏幕 上 输出 该 矩阵 了 。 接 下 
来 歼 开 始 对 原始 图 像 进行 SVD 分 解 并 重 构图 像 。 在 程序 中 ， 通 过 将 sigma E 
新 构成 sigRecon 来 实现 这 一 点 。sigma 是 一 个 对 角 和 矩阵 ， 因 此 需要 建立 一 个 
全 0 算 阵 ， 人 然后 将 前 面 的 那些 奇异 值 填充 到 对 角 线 上 。 最 后 ， 通 过 截断 的 u 
'4BPE, HjsigRecon 得 到 重 构 后 的 矩阵 ， 该 矩阵 通过 printMat() 函数 
Hl) ° 


BHAA ARIST OR: 


>>> reload(svdRec) 


<module 'svdRec' from 'svdRec.py'> 


>>> svdRec.imgCompress(2) 


****original matrix****** 


000000000000001100000606060006060600006090 


00000000000011111100000000000000 


00000000000111111110000000000000 


000000000011111111112000000000000 


00000000111111111111100000006000$0 


0000000111111111111111060000006000790 


000000001111111111111110000000807$0 


000000001111111000011121100000000 


000000000 


000000000 


000000000 


000000000 


(32, 32) 


**** reconstructed 


0 


0 


0 


0 


0 


0111111111141 


001111111111 


000111111111 


0000011111410 


matrix using 2 singular 


0 


0 


0 


0 


(0) 


0 


0 


0 


0 


0 


1111000 


1100000 


1000000 


0000000 


values****** 


e 
e 
e 
e 
e 
e 
e 
e 
e 
e 
e 
e 
= 
= 
B 
B 
= 
EY 
EY 
= 
e 
e 
e 
e 
e 
e 
e 
e 
e 
e 
e 
e 


[o] 
[o] 
© 
© 
© 
© 
© 
© 
© 
© 
© 
© 
© 
© 
© 
© 
© 
© 
© 
© 
© 
© 
© 
© 
© 
© 
© 
© 
© 
© 
© 
© 


可 以 看 到 ， 只 
们 到 说 需要 多 


需要 两 个 奇异 值 就 能 相当 精确 地 对 图 像 实 现 重 构 。 那 么 ， 我 
少 个 0-1 的 数字 来 重 构图 像 呢 ? u 和 v 都 是 32x2 的 矩阵 ， 有 


两 个 奇异 值 。 因 此 总 数字 数目 是 64+64+2=130。 和 原 数目 1024 相 比 ， 我 们 获 
得 了 几乎 10 倍 的 压缩 比 。 


14.7 本 章 小 结 


SVD 是 一 种 强大 的 降 维 工具 ， 我 们 可 以 利用 SVD 来 逼近 和 矩阵 并 从 中 提取 重 
SURMIE ° 通过 保留 矩阵 80% 一 90% 的 能 量 ， 束 可 以 得 到 重要 的 特征 并 去 掉 噪 
pc SVD 已 经 运用 到 了 多 个 应 用 中 ， 其 中 一 个 成 功 的 应 用 案例 就 是 推荐 引 
EE o 


推荐 引擎 将 物品 推荐 给 用 户 ， 协 同 过 滤 则 是 一 种 基于 用 户 喜 好 或 行为 数据 
的 推荐 的 实现 方法 。 协同 过 滤 的 核心 是 相似 度 计算 方法 ， 有 很 多 相似 度 计 
算 方法 都 可 以 用 于 计算 物品 或 用 户 之 间 的 相似 度 。 通 过 在 低 维 空间 下 计算 
相似 度 ，SVD 提 高 了 推荐 系 引 警 的 效果 。 


在 大 规模 数据 集 上 ，SVD 的 计算 和 推荐 可 能 是 一 个 很 困难 的 工程 问题 。 通 
过 离线 方式 来 进行 SVD 分 解 和 相似 度 计算 ， 是 一 种 减少 见 余 计算 和 推荐 所 
A 在 下 一 章 中 ， 我 们 将 介绍 在 大 数据 集 上 进行 机 器 学 习 的 一 
BTH 9 


第 15 章 ”大 数据 与 MapReduce 


本 章 内 容 


e MapReduce 

。 Python 中 Hadoop 流 的 使 用 

。 使 用 mrjob 库 将 MapReduce 目 动 化 

。 利用 Pegasos 算 法 并 行 训练 支持 问 量 机 


常 听 人 说 : “兄弟 ， 你 举 的 例子 是 不 错 ， 但 我 的 数据 太 大 了 | ”这 无 疑问 ， 
工作 中 所 使 用 的 数据 集 将 会 比 本 书 的 例子 大 很 多 。 随 着 大 量 设 备 连 上 互联 
网 加 上 用 户 也 对 基于 数据 的 决策 很 感 兴趣 ， 所 收集 到 的 数据 已 经 远 远 超出 
了 我 们 的 处 理 能 力 。 幸 运 的 是 ， 一 些 开 源 的 软件 项 目 提 供 了 海量 数据 处 理 
的 解决 方案 ， 其 中 一 个 项 目 就 是 Hadoop， 它 采用 Java 语 言 编 写 ， 文 持 在 大 
量 机 万 上 分 布 式 处 理 数 据 。 


假想 你 为 一 家 网 络 购物 商店 工作 ， 有 很 多 用 户 来 访问 网 站 ， 其 中 有 一 些 人 
会 购买 商品 ， 有 一 些 人 则 在 随意 浏览 后 离开 了 网 站 。 对 于 你 来 说 ， 可 能 很 
想 识别 那些 有 购物 意愿 的 用 户 。 如 何 实现 这 一 点 ? 可 以 浏览 Web 服 务 器 日 志 
找 出 每 个 人 所 访问 的 网 页 。 日 志 中 或 许 还 会 记录 其 他 行为 ， 如 果 这 样 ， 就 
可 以 基于 这 些 行为 来 训练 分 类 名 。 唯 一 的 问题 在 于 数据 集 可 能 会 非常 大 ， 
在 单机 上 训练 算法 可 能 要 运行 好 几 天 。 本 章 就 将 介绍 一 些 实用 的 工具 来 解 
决 这 样 的 问题 ， 包 括 Hadoop 以 及 一 些 基 于 Hadoop 的 Python 工具 包 。 


Hadoop 是 MapReduce 框 架 的 一 个 免费 开源 实现 ， 本 章 首 先 人 简单 介绍 
MapReduce 和 Hadoop 项 目 ， 然 后 学 习 如 何 使 用 Python 编写 MapReduce 作 业 : 
e 这些 作业 先 在 单机 上 进行 测试 ， 之 后 将 使 用 亚马逊 的 Web 服务 在 大 量 机 器 
上 并 行 执 行 。 一 旦 能 够 熟练 运行 MapReduce 人 作业， 本章 我 们 就 可 以 讨论 基于 
MapReduce 处 理 机 器 学 习 算 法 任务 的 一 般 解 决 方案 。 在 本 章 中 还 将 看 到 一 个 
可 以 在 Python 中 自动 执行 MapReduce 作 业 的 mrjob 框 架 。 最 后 ， 介 绍 如 何 用 
mrjob 构 建 分 布 式 SVM， 在 大 量 的 机 如 上 并 行 训练 分 类 器 。 


1. 一 个 作业 即 指 把 一 个 MapReduce 程 序 应 用 到 一 个 数据 集 上 。 一 一 译 者 注 


15.1 MapReduce: 分 布 式 计 算 的 框架 


MapReduce 

RA: 可 在 短 时 间 内 完成 大 量 工作 。 

缺点 : 算法 必须 经 过 重 写 ， 需 要 对 系统 工程 有 一 定 的 理解 。 
适用 数据 类 型 : 数值 型 和 标 称 型 数据 。 


MapReduce 是 一 个 软件 框架 ， 可 以 将 单个 计算 作业 分 配给 多 台 计 算 机 执行 。 
它 假定 这 些 作业 在 单机 上 需要 很 长 的 运行 时 间 ， 因 此 使 用 多 人 台 机 器 缩短 运 
quie ATE 
过 一 整 天 。 


尽管 有 人 声称 他 们 已 经 独立 开发 过 类 似 的 框架 ， 美 国 还 是 把 MapReduce 的 专 
利 颁 发 给 了 Google。Google 公 司 的 Jeffrey Dean 和 Sanjay Ghemawat 在 2004 年 
的 一 篇 论文 中 第 一 次 提出 了 这 个 思想 ， 该 论文 的 题目 是 “MapReduce: 
Simplified Data Processing on Large Clusters" ' MapReduce% F H KETIN 
程 中 常用 的 map 和 reduce 两 个 单词 组 成 。 


1. J. Dean, S. Ghemawat, *MapReduce: Si mplified Data Processing on Large Cl usters," OSDI '04: 6th Symposium on Operating System Design and Implementa tion, San Francisco, CA, 


December, 2004. 


MapReduce 在 大 量 世 点 组 成 的 集群 上 运行 。 它 的 工作 流程 是 : 单个 作业 被 分 

成 很 多 小 份 ， 输 入 数据 也 被 切片 分 发 到 每 个 站 点 ， 各 个 世上 点 只 在 本 地 数据 

上 做 运算 ， 对 应 的 运算 代码 称 为 mapper， 这 个 过 程 被 称 作 map :阶段 。 每 个 

mapper 的 输出 通过 某 种 方式 组 合 (一 般 还 会 做 排序 ) 。 排 序 后 的 结果 再 被 

分 成 小 份 分 发 到 各 个 节点 进行 下 一 步 处 理工 作 。 第 二 步 的 处 理 阶段 被 称 为 

vul 对 应 的 运行 代码 被 称 为 reducer。reducer 的 输出 就 是 程序 的 最 终 
行 结 果 。 


:map、 reduce 一 般 都 不 翻译 ，sort、combine 有 人 分 别 翻译 成 排序 、 合 并 。 
mapper 和 reducer 分 别 是 指 进行 nap 和 reduce 操 作 的 程序 或 节点 ，key/value 有 
人 翻译 成 键 / 值 。 这 几 个 词 ， 在 本 章 均 未 翻译 。 一 一 译 者 注 


MapReduce 的 优势 在 于 ， 它 使 得 程序 以 并 行 方式 执行 。 如 果 集 群 由 10 个 节点 
组 成 ， 而 原先 的 作业 需要 10 个 小 时 来 完成 ， 那 么 应 用 MapReduce， 该 作业 将 
在 一 个 多 小 时 之 后 得 到 同样 的 结果 。 举 个 例子 ， 给 出 过 去 100 年 内 中 国 每 个 
省 每 天 的 正确 气温 数据 ， 我 们 想 知 道 近 100 年 中 国 国 内 的 最 高 气温 。 这 里 的 
数据 格式 为 : <province><data><temp>。 为 了 统计 该 时 段 内 的 最 高 温度 ， 可 
以 先 将 这 些 数 据 根据 节点 数 分 成 很 多 份 ， 每 个 节点 各 自 寻 找 本 机 数据 集 上 
的 最 高 温度 。 这 样 每 个 mapper 将 产生 一 个 温度 ， 形 如 <"max"><temp> , 158. 
是 所 有 的 mapper 都 会 产生 相同 的 key: "max" 字 符 串 。 最 后 只 需要 一 个 
reducer 来 比较 所 有 mapper 的 输出 ， 就 能 得 到 全 局 的 最 高 温度 值 。 


注意 : 在 任何 时 候 ， 每 个 mapper 或 reducer 之 间 都 不 进行 通信 *。 每 个 节 
点 只 处 理 上 自己 的 事务 ， 且 在 本 地 分 配 的 数据 集 上 运算 。 


3. 这 是 指 mapper 各 自 之 间 不 通信 ，reducer 各 自 之 间 不 通信 ， 而 reducer 会 接收 mapper 生 成 的 数据 。 一 一 译 者 注 


不 同类 型 的 作业 可 能 需要 不 同 数目 的 reducer。 再 回 到 温度 统计 的 例子 ， 虽 
然 这 次 使 用 的 数据 集 相 同 ， 但 不 同 的 是 这 里 要 找 出 每 年 的 最 高 温度 。 这 样 
的 话 ，mapper 应 先 找 到 每 年 的 最 大 温度 并 输出 ， 所 以 中 间 数 据 的 格式 将 形 
如 。 此 外 ， 还 需要 保证 所 有 同一 年 的 数据 传递 给 同一 个 reducer， 这 由 map 和 
reduce 阶 段 中 间 的 sort 阶 段 来 完成 。 该 例 中 也 给 出 了 MapReduce 中 值得 注意 
的 一 点 ， 即 数据 会 以 key/value 对 的 形式 传递 。 这 里 ， 年 代 (year) 是 key， 
温度 (temp) 是 value。 因 此 sort 阶 段 将 按照 年 代 把 数据 分 类 ， 之 后 合并 。 最 
终 每 个 reducer 就 会 收 到 相同 的 key 值 。 


从 上 述 例 子 可 以 看 出 ，reducer 的 数量 并 不 是 固定 的 。 此 外 ， 在 MapReduce 的 

框架 中 还 有 其 他 一 些 灵活 的 配置 选项 。MapReduce 的 整个 编 配 工作 由 主 节 点 
(masternode) 控制 。 这 些 主 节 点 控制 整个 MapReduce 作 业 编 配 ， 包 括 每 份 

数据 存放 的 节点 位 置 ， 以 及 map、sort 和 reduce 等 阶段 的 时 序 控制 等 。 此 

外 ， 主 厄 点 还 要 包含 容错 机 制 。 一 般 地 ， 每 份 mapper 的 输入 数据 会 同时 分 

发 到 多 个 市 点 形成 多 份 副 本 ， 用 于 事务 的 失效 处 理 。 一 个 MapReduce 集 群 的 

示意 图 如 图 15-1 所 示 。 
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15-1 MapReduce 框 架 的 示意 图 。 在 该 集群 中 有 3 人 台 双 核 机 器 ， 如 果 机 器 0 失效 ， 作 业 仍 可 以 正常 继续 


图 15-1 的 每 台 机 需 都 有 两 个 处 理 吉 ， 可 以 同时 处 理 两 个 map 或 者 reduce 任 

务 。 如 采 机 器 0 在 map 阶 段 宕 机 ， 主 节操 将 会 发 现 这 一 点 。 主 节点 在 发 现 该 
问题 之 后 ， 会 将 机 絮 0 移 出 集群 ， 并 在 剩余 的 节点 上 继续 执行 作业 。 在 一 些 
MapReduce 的 实现 中 ， 在 多 个 机 器 上 都 保存 有 数据 的 多 个 备份 ， 例 如 在 机 器 
0 上 存放 的 输入 数据 可 能 还 存放 在 机 器 1 上 ， 以 防 机 右 0 出 现 问 题 。 同 时 ， 
个 节点 都 必须 与 主 太 点 通信 ， 表 明 目 己 工作 正常 。 如 果菜 市 点 失效 或 者 工 
作 异 第 ， 主 节 反 将 重 局 该 斑点 或 者 将 该 斑点 移出 可 用 机 器 池 。 


总 结 一 下 上 面 几 个 例子 中 关于 MapReduce 的 学 习 要 点 : 
。 主 节点 控制 MapReduce 的 作业 流程 ; 


e MapReduce 的 作业 可 以 分 成 map 任 务 和 reduce 任 务 ; 

。 map 任 务 之 间 不 做 数据 交流 ，reduce 任 务 也 一 样 ; 

。 在 map 和 reduce 阶 段 中 间 ， 有 一 个 sort 或 combine 阶 段 ; 

。 数据 被 重复 存放 在 不 同 的 机 器 上 ， 以 防 某 个 机 絮 失 效 ; 
e Imapper 和 reducer 传 输 的 数据 形式 为 key/value 对 。 


Apache 的 Hadoop 项 目 是 MapReduce 框 染 的 一 个 实现 。 下 一 节 将 开始 讨论 
Hadoop 项 目 ， 并 介绍 如 何在 Python 中 使 用 它 。 


15.2 ”Hadoop 流 


Hadoop 是 一 个 开源 的 Java 项 目 ， 为 运行 MapReduce 作 业 提 供 了 大 量 所 需 的 功 
能 。 除 了 分 布 式 计算 之 外 ，Hadoop 自 带 分 布 式 文件 系统 。 


本 书 既 不 是 Java, 也 不 是 Hadoop 的 教材 ， 因 此 本 节 只 对 Hadoop 做 简单 介绍 ， 
只 要 能 满足 在 Python 中 用 Hadoop 来 执行 MapReduce 作 业 的 需求 即 可 。 如 果 读 
者 想 对 Hadoop 做 深入 理解 ， 可 以 阅读 《Hadoop 实 战 》' 或 者 浏览 Hadoop 官 
方 网 站 上 的 文档 (http://hadoop.apache.org/ ) ° 此 外 ，Mahout in action? — 


书 也 为 在 MapReduce 下 实现 机 表 学 习 算法 提供 了 很 好 的 参考 资料 。 


1. Chuck Lam, Hadoop in Action (Manning Publications, 2010)， 中 文 版 由 人 民 邮 电 出 版 社 出 版 。 


2.Sean Owen, Robin Anil, Ted Dunning, and Ellen Friedman, Mahout in Action (Manning Publications, 2011), 文 版 即将 由 人 民 邮 电 出 版 社 出 版 。 


Hadoop 可 以 运行 Java 之 外 的 其 他 语言 编写 的 分 布 式 程序 。 因 为 本 书 以 Python 
为 主 ， 所 以 下 面 将 使 用 Python 编写 MapReduce 代 码 ， 并 在 Hadoop 流 中 运行 。 
Hadoop 流 (http://hadoop.apache.org/common/docs/current/streaming.html ) 很 
像 Linux 系 统 中 的 管道 (管道 使 用 符号 | ， 可 以 将 一 个 命令 的 输出 作为 另 一 
个 命令 的 输入 ) 。 如 果 用 mapper.py 调用 mapper ， 用 reducer.py 调用 
reducer ， 那 么 Hadoop 流 就 可 以 像 Linux 命 令 一 样 执行 ， 例 如 : 


cat inputFile.txt | python mapper.py | sort | python reducer.py > outputFile.txt 


IH, RMA Hadoop?iis, n] ES EILER E^ tz I. BP up E 
Linux 命 令 来 测试 Python 语言 编写 的 MapReduce 脚 本 。 


15.2.1 分 布 式 计算 均值 和 方差 的 mapper 


接 下 来 我 们 将 构建 一 个 海量 数据 上 分 布 式 计算 均值 和 方差 的 MapReduce 作 
业 。 示 范 起 见 ， 这 里 只 选取 了 一 个 小 数据 集 。 在 文本 编辑 强 中 创建 文件 
mrMeanMapper.py ， 并 加 入 如 下 程序 清单 中 的 代码 。 

程序 清单 15-1 分 布 式 均值 和 方差 计算 的 mapper 


import sys 


from numpy import mat, mean, power 


def read input(file): 
for line in file: 
yield line.rstrip() 
input - read input(sys.stdin) 
input - [float(line) for line in input] 
numInputs - len(input) 
input - mat(input) 


sgInput - power(input,2) 


print "96dNt96f Nt96f" % (numInputs, mean(input), mean(sqInput)) 


print »» sys.stderr, "report: still alive" 


这 是 一 个 很 简单 的 例子 : 该 mapper 首 先 按 行 读 取 所 有 的 输入 并 创建 一 组 对 

应 的 浮 点 数 ， 然 后 得 到 数组 的 长 度 并 创建 NumPy 和 矩阵 。 再 对 所 有 的 值 进行 

人 e 这些 信 将 用 于 计算 全 局 的 均 
WZ ° 


注意 : 一 个 好 的 习惯 是 向 标准 错误 输出 发 送 报告 。 如 果 某 作业 10 分 钟 
内 没有 报告 输出 ， 则 将 被 Hadoop 中 止 。 


下 面 看 看 程序 清单 15-1 的 运行 效果 。 自 先 确 认 一 下 在 下 载 的 源码 中 有 一 个 文 
件 inputFile.txt ， 其 中 包含 了 100 个 数 。 在 正式 使 用 Hadoop 之 前 ， 先 来 测 
斌 一 下 mapper。 在 Linux 终 端 执行 以 下 命令 : 


cat inputFile.txt | python mrMeanMapper.py] 


如 果 在 Windows 系 统 下 ， 可 在 DOS 窗 口 输 入 以 下 命令 : 


python mrMeanMapper.py < inputFile.txt 


运行 结 采 如 下 : 
100 0.509570 0.344439 


report: still alive 


其 中 第 一 行 是 标准 输出 ， 也 就 是 reducer 的 输入 ; 第 二 行 是 标准 错误 输出 ， 
即 对 主 节 点 做 出 的 啊 应 报告 ， 表 明 本 市 点 工作 正常 。 


15.2.2 分布 式 计 算 均 值 和 方差 的 reducer 


至 此 ，mapper 已 经 可 以 工作 了 ， 下 面 介 绍 reducer。 根 据 前 面 的 介绍 ， 
mapper 接 受 原始 的 输入 并 产生 中 间 值 传递 给 reducer 。 很 多 mapper 是 并 行 执 
行 的 ， 所 以 需要 将 这 些 mapper 的 输出 合并 成 一 个 值 。 接 下 来 给 出 reducer 的 
代码 :将 中 间 的 key/value 对 进行 组 合 。 打 开 文 本 编辑 絮 ， 建 立 文件 
mrMeanReducer .py ， 然 后 输入 程序 清单 15-2 的 代码 。 


程序 清单 15-2 ”分布 式 均值 和 方差 计算 的 reducer 


import sys 


from numpy import mat, mean, power 


def read input(file): 

for line in file: 

yield line.rstrip() 

input - read input(sys.stdin) 
mapperOut = [line.split('\t') for line in input] 
cumVal-0.0 
cumSumSq-0. 0 
cumN-0.0 
for instance in mapperOut: 

nj = float(instance[0]) 

cumN += nj 

cumVal += nj*float(instance[1]) 

cumSumSq += nj*float(instance[2]) 
mean = cumVal/cumN 
varSum = (cumSumSq - 2*mean*cumVal + cumN*mean*mean)/cumN 
print "96dNt96f Nt96f" % (cumN, mean, varSum) 


print >> sys.stderr, "report: still alive" 


程序 清单 15-2 就 是 reducer 的 代码 ， 它 接收 程序 清单 15-1 的 输出 ， 并 将 它们 合 
并 成 为 全 局 的 均值 和 方差 ， 从 而 完成 任务 。 


你 可 以 在 目 己 的 单机 上 用 下 面 的 命令 测试 一 下 : 


%cat inputFile.txt | python mrMeanMapper.py | python mrMeanReducer.py 


如 果 是 DOS 环 境 ， 键 入 如 下 命令 : 


%python mrMeanMapper.py < inputFile.txt | python mrMeanReducer.py 


后 面 的 章节 将 介绍 如 何在 多 人 台 机 大 上 分 布 式 运行 该 代码 。 你 手边 或 许 没有 
10 台 机 侨 ， 没 有 问题 ， 下 市 束 会 介绍 如 何 租 用 服务 右 。 


15.3 ”在 Amazon 网 络 服 务 上 运行 Hadoop 程 序 


如 果 要 在 100 台 机 器 上 同时 运行 MapReduce 作 业 ， 那 么 就 需要 找到 100 台 机 
如 ， 可 以 采取 购买 的 方式 ， 或 者 从 其 他 地 方 租用 。Amazon 公 司 通过 Amazon 
网 络 服务 (Amazon Web Services, AWS, http://aws.amazon.com/) ， 将 它 
的 大 规模 计算 基础 设施 租借 给 开发 者 。 


AWS 提 供 网 站 、 流 媒体 、 移 动 应 用 等 类 似 的 服务 ， 其 中 存储 、 融 宽 和 计算 
能 力 按 价 收费 ， 用 户 可 以 仅 为 使 用 的 部 分 按时 缴费 ， 无 需 长 期 的 合同 。 这 
种 仅 为 所 需 买 单 的 形式 ， 使 得 AWS 很 有 诱惑 力 。 例 如 ， 当 你 临时 需要 使 用 
1000 台 机 器 时 ， 可 以 在 AWS 上 申请 并 做 几 天 实验 。 几 天 后 当 你 发 现 当前 的 
方案 不 可 行 ， 就 即时 关 掉 它 ， 不 需要 再 为 这 1000 台 机 器 文 出 任何 费用 。 本 
首先 介绍 几 个 目前 在 AWS 上 可 用 的 服务 ， 然 后 介绍 AWS 上 运行 环境 的 搭 
建 方法 ， 最 后 给 出 了 一 个 在 AWS 上 运行 Hadoop 流 作业 的 例子 。 


15.3.1 AWS 上 的 可 用 服务 


AWS 上 提供 了 大 量 可 用 的 服务 。 在 行内 人 士 看 来 ， 这 些 服务 的 名 字 很 容易 
理解 ， 而 在 新 手 看 来 则 比较 神秘 。 目 前 AWS 还 在 不 俘 地 演变 ， 也 在 不 断 地 
添加 一 些 新 的 服务 。 下 面 给 出 一 些 基 本 的 稳定 的 服务 。 


° S3 简单 存储 服务 ， 用 于 在 网 络 上 存储 数据 ， 需 要 与 其 他 AWS 产 品 
n s 。 用 户 可 以 租借 一 组 存储 设备 ， 并 按照 数据 量 大 小 及 存储 时 
[BJ ARTY BE o 

。 EC2 弹性 计算 云 (Elastic Compute Cloud) ， 是 使 用 服务 器 镜像 的 
一 项 服务 。 它 是 很 多 AWS 系 统 的 核心 ， 通 过 配置 该 服务 絮 可 以 运行 大 
多 数 的 操作 系统 。 它 使 得 服务 器 可 以 以 镜像 的 方式 在 几 分 钟 内 启动 ， 

用 户 可 以 创建 、 存 储 和 共享 这 些 镜 像 。EC2 中 “弹性 ”的 由 来 是 该 服务 能 
够 迅速 便捷 地 根据 需求 增加 服务 的 数量 。 


e Elastic MapReduce (EMR) — — 弹性 MapReduce， 它 是 AWS 的 
MapReduce 实 现 ， 搭 建 于 稍 旧 版 本 的 Hadoop 之 上 \Amazon 和 希望 保持 一 
个 稳定 的 版 本 ， 因 此 做 了 些 修 改 ， 没 有 使 用 最 新 的 Hadoop) °- EE 
了 一 个 很 好 的 GUL， JEME T Hadoop EAHA DAJTE 用 户 不 需要 因 
为 集群 琐碎 的 配置 (如 Hadoop 系 统 的 文件 导入 或 Hadoop 机 器 的 参数 修 
| 而 多 花心 思 。 在 EMR 上 ， 用 户 可 以 运行 Java 作 业 或 Hadoop 流 作 

， 本 书 将 对 后 者 进行 介绍 。 


男 外 ， 很 多 其 他 服务 也 是 可 用 的 ， 本 书 将 着 重 介绍 EMR。 下面 还 需要 用 到 
> 因为 EMR 需 要 从 S3 上 读 取 文件 并 局 动 安 狂 Hadoop 的 EC2 服 务 句 蚀 


15.3.2 ”开启 Amazon 网 络 服务 之 旅 


使 用 AWS 之 前 ， 首 先 需要 创建 AWS 账 号 。 开 通 AWS 账 号 还 需要 一 张 信 用 
卡 ， 后 面 章 节 中 的 练习 将 花费 大 约 1 美元 的 费用 。 打 开 
http://aws.amazon.com/ 可 以 看 到 如 图 15-2 所 示 的 界面 ， 在 右上 部 有 “现在 注 
JW" (Sign Up Now) 按钮 。 点 击 后 按照 指令 进行 ， 经 过 三 个 页 面 就 可 以 完 
成 AWS 的 注册 。 注意 ， 你 需要 注册 $S3、EC2 和 EMR 三 项 服务 。 


[E Sign in to the AWS Management Console gj Create an AWS Account » English 


Search: Entire Site v P 


* Developers * Community ~ Support * Account 


stoJapan | 727F2BAIc ERE Sign up for a free 


tions and services ^ KU NOT -4€72—1)5 Amazon Web Services Account 
okyo datacenters. T77)r—vave*u-UcA* i ) 


La n 1| 
Learn how Amazon Web Services 


Japan Earthquake and Pacific Tsunami Relief Fund enables you to reach business 


goals faster: 


a. 


> Learn more.. 


| ee E T | l Get Started 


Business Managers 


« Solutions & Use Cases 


» Securitv Center 


图 15-2  http://aws.amazon.com/ 页 面 右 上 部 给 出 了 注册 AWS 账 号 的 按钮 


建立 了 AWS 账 号 后 ， 登 录 进 AWS 探 制 台 并 点 击 EC2、Elastic MapReduce 和 
S3 选 项 卡 ， 确 认 你 是 否 已 经 注册 了 这 些 服 务 。 如 有 果 你 没有 注册 某 项 服务 ， 
会 看 到 如 图 15-3 所 示 的 提示 。 


Elastic Beanstalk S3 EC2 VPC CloudWatch Elastic MapReduce CloudFront ROS SNS 
Account needs subscription 
全 You must sign up for Amazon RDS before you can use the Amazon RDS Console. 


It's quick and free to sign up, just click the button below. 


stes. All night rese Feedback Support Privacy Policy Terms o f Use 
An amazoncom. company 


图 15-3 ”服务 未 注册 时 的 AWS 控 制 台 提 示 信 息 。 如 果 你 的 浏览 器 在 S3、 
EC2 和 Elastic MapReduce 服 务 页 面 也 有 相应 提示 ， 请 注册 这 些 服 务 


这 样 束 做 好 了 在 Amazon 集 群 上 运行 Hadoop 作 业 的 准备 ， 下 一 节 将 介绍 在 
EMR 上 运行 Hadoop 的 具体 流程 。 


— ^— 


15.3.3 ”在 EMR 上 运行 Hadoop 作 业 


注册 了 所 需 的 Amazon 服 务 之 后 ， 登 录 AWS 控 制 台 并 点 击 S3 选 项 卡 。 这 里 需 
要 将 文件 上 传 ， 以 便 AWS 能 找到 我 们 提供 的 文件 。 


1. 首先 需要 创建 一 个 新 的 bucket 〈 可 以 将 bucket 看 做 是 一 个 驱动 器 ) 。 例 
如 ， 创 建 了 一 个 叫做 rustbucket 的 bucket。 注 意 ，bucket 的 名 字 是 唯一 
的 ， 所 有 用 户 均 可 使 用 。 你 应 当 为 目 己 的 bucket 创 建 独特 的 名 字 。 

2. 然后 创建 两 个 文件 夹 : mrMeanCode 和 mrMeanInput。 将 之 前 用 Python 编 
写 的 MapReduce 代 人 码 上 传 到 mrMeanCode， 另 一 个 目录 mrMeanInput 用 于 
存放 Hadoop 作 业 的 输入 。 

3. 在 已 创建 的 bucket 中 (如 rustbucket) 上 传 文件 inputFile.txt 到 
mrMeanInput 目 录 。 

4. 将 文件 mrMeanMapper.py 和 mrMeanReducer.py 上 传 到 mrMeanCode 日 
录 。 这 样 束 完成 了 全 部 所 需 文件 的 上 传 ， 也 做 好 了 在 多 台 机 器 上 启动 
第 一 个 Hadoop 作 业 的 准备 。 


5. Aii Elastic MapReduce 选 项 卡 ， 点 击 “ 创 建新 作业 流 ”(〈Create New Job 
Flow) 按钮 ， 并 将 作业 流 命名 为 mrMeango7 。 屏 幕 上 可 以 看 到 如 图 15-4 
所 示 的 页 面 ， 在 下 方 还 有 两 个 复 选 框 和 一 个 下 拉 框 ， 选 择 “ 运 行 目 己 的 
应 用 程序 ”(Run Your Own Application) 按钮 并 点 击 “ 继 
续 ”(Continue) 进入 到 下 一 步 。 


Create a New Job Flow 


\ 
DEANE 108 FLOW 


Creating a job flow to process your data using Amazon Elastic MapReduce is simple and quick. Let's begin by giving your job flow a 
name and selecting its type. If you dont already have an application you'd like to run on Amazon Elastic MapReduce, samples are 
available to help you get started. 


Job Flow Name*: mddeanü07] 


A. l 
Create a Job Flow Run your own application ASt ing job flow runs a single H joop job con 


Run à sample application 


be impl 
the following supported languages: Ruby, Perl, Python, 
PHP, R, Bash, C++. 
Streaming 


图 15-4 EMR 的 新 作业 流 创 建 页 面 


6. 在 这 一 步 需要 设 定 Hadoop 的 输入 参数 。 如 果 这 些 参数 设置 错误 ， 作 业 
将 会 " 杆 失败。 在 “指定 参数 ”(Specify Parameters) 页 面 的 对 应 字段 上 
输入 下 面 的 内 容 : 


Input Location”: «your bucket name»/mrMeanInput/inputFile.txt 
Output Location': «your bucket name»/mrMean007Log 


Mapper': "python s3n:// «your bucket 
name»/mrMeanCode/mrMeanMapper . py" 


Reducer': "python s3n:// «your bucket 
name»/mrMeanCode/mrMeanReducer . py" 


可 以 将 "其 他 参数 ” (Extra Arg) 字段 留 空 。 该 字段 的 作用 是 指定 一 些 
其 他 参数 ， 如 reducer 的 数量 。 本 页 面 将 如 图 15-5 所 示 ， 点 击 “ 继 


7€" (Continue) ° 


Create a New Job Flow Cancel X 
( 

SPECIFY PARAMETERS 
Specify Mapper and Reducer functions to run within the Job Flow. The mapper and reducers may be either (i) dass names referring 
to a mapper or reducer dass in Hadoop or (ii) locations in Amazon $3. (Click Here for a list of available tools to help you upload and 
download files from Amazon S3.) The format for specifying a location in Amazon $3 is bucket name/path name. The location should 
point to an executable program, for example a python program. Extra arguments are passed to the Hadoop streaming program 
and can speafy things such as additional files to be loaded into the distributed cache. 


Input Location*: «your bucket name»/mrMeaninput/InputF ile txt 
Output Location*: «your bucket name»/mrMean007/Log 


Mapper*: “python s3n //«your bucket name»/miMeanCode/mrMear 


Reducer*: "python s3n //«your bucket name»/mrMeanCode/mrMear 


Extra Args: 


图 15-5 EMR 的 指定 参数 页 面 


7. 下 一 个 页 面 需 要 设 定 EC2 的 服务 器 镜像 ， 这 里 将 设 定 用 于 存储 数据 的 服 
务 絮 数量， 默认 值 是 2， 可 以 改 成 1° 你 也 可 以 按 需 要 改变 EC2 服 务 器 镜 
像 的 类 型 ， 可 以 申请 一 个 大 内 存 高 运算 能 力 的 机 器 (当然 也 花费 更 
多 ) 。 实 际 上 ， 大 的 作业 经 常 在 大 的 服务 器 镜像 上 运行 ， 详 见 
http://aws.amazon.com/ec2/#instance 。 本 节 的 简单 例子 可 以 选用 很 小 的 
机 器 。 本 页 面 如 图 15-6 所 示 ， 点 击 “ 继 续 ” (Continue) ° 


Create a New Job Flow 


f 
CONFIGURE EC2 INSTANCES 
Specify the Master, Core and Task Nodes to run your job flow. For more than 20 instances, complete the limit request form. 


Master Instance Group: T! 


. r1 
Instance Type: Small (m1 small) LY) L] Request Spot Instance 


Core Instance Group: Thes« 2 instances run Hadoop tasks and store data ) the Hadoor 
Re ended for capacity needed for the life of 


Instance Count: 1 


Instance Type: | Small (m1 small) "m Request Spot Instances 


Task Instance Group (Optional): These E 


Instance Count: 0 


Instance Type: | Small (m1.small) [=] Request Spot Instances 


图 15-6” 设 定 EMR 的 EC2 服 务 器 镜像 的 页 面 ， 在 该 页 面 上 可 以 设 定 
MapReduce 作 业 所 需 的 服务 器 类 型 和 服务 器 数量 


8. 下 一 个 是 “高 级 选项 ”(Advanced Options) 页 面 ， 可 以 设 定 有 关 调 试 的 
一 些 选 项 。 务 必 打 开 日 志 选 项 ， 在 “亚马逊 S3 日 志 路 径 ”(Amazon S3 
Log Path) 里 添加 ssn://<your bucket name»/mrMeanO0O07DebugLog ° H 
有 注册 SimpleDB 才 能 开局 Hadoop 调 试 服务 ， 它 是 Amazon 的 访问 非 关 系 
数据 库 的 简单 工具 。 虽 然 开局 了 该 服务 ， 但 我 们 不 准备 使 用 它 来 调试 
Hadoop 流 作业 。 当 一 个 Hadoop 作 业 失 败 ， 会 有 一 些 失 败 信 息 写 入 上 壕 
目 孙 ， 回 头 读 一 下 这 些 信息 就 可 以 分 析 在 哪里 出 了 问题 。 整 个 页 面 如 
图 15-7 所 示 ， 点 击 “ 继 续 ” (Continue) ° 


co 


Create a New Job Flow 


ADVANCEO OPTIONS 


Here you can select an EC2 key pair, configure your cluster to use VPC, set your job flow debugging options, and enter advanced 
job flow details such as whether it is a long running duster. 


Amazon EC2 Key Pair: Proceed without an EC2 Key Pair [v] 


Amazon VPC Subnet Id: “Proceed without a VPC Subnet ID [v] 


Configure your logging options. Learn more. 
Amazon S3 Log Path $3 //«your bucket name»/mrMean007DebugLog 
(Optional): 


Enable Debugging: 9 Yes No 


Set advanced job flow options. 
Keep Alive Yes 9 No 


图 15-7 EMR 的 高 级 选项 页 面 ， 可 以 设 定 调试 文件 的 存放 位 置 ， 也 可 
以 设 定 继续 自动 运行 机 制 。 作 业 失 败 还 可 以 设 定 登录 服务 器 所 需 的 登 
录 密 钥 。 如 果 想 检查 代码 的 运行 环境 ， 登 录 服 务 器 再 查看 是 个 很 好 的 


J hy 


. 关键 的 设置 已 经 完成 ， 可 以 在 接 下 来 的 引导 页 面 使 用 上 默认 的 设 定 ， 一 


直 点 “下 一 步 ”(Next) 到 查看 (Review) 页 面 。 检 查 一 下 所 有 的 配置 
是 否 正确 ， 然 后 点 击 底部 的 “创建 作业 流 ”(Create Job Flow) 按钮 。 这 
样 新 任务 就 创建 好 了 ， 在 下 一 个 页 面 点 击 “ 关 闭 ”(Close) 按钮 将 返回 
EMR 控 制 台 。 当 作业 运行 的 上 时候， 可 以 在 控制 台 看 到 其 运行 状态 。 读 
者 不 必 担 心 运行 这 样 一 个 小 作业 花费 了 这 么 多 时 间 ， 因 为 这 里 包含 了 
新 的 服务 器 镜像 的 配置 。 最 终 页 面 如 图 15-8 所 示 (可 能 你 那里 不 会 有 这 
么 多 的 失败 作业 ) 。 


Elastic Beanstalk $3 EC2 VPC CloudWatch Elastic MapReduce CloudFront RDS SNS 
Your Elastic MapReduce Job Flows — — " T : 


Regiom H] US East v GÈ Create New Job Flow > T ShowMide © Retresh | @ Hep 
Mousey: A) u © © leot6Jobror 7 7! 
Name State Creation Date Elapsed Time Normalized Instance Hours 
* mrMean007 «9 STARTING 2011-02-22 15:21 PST 0hours 0 minutes 0 
My Job Flows «9 COMPLETED 2011-02-22 14:22 PST 0hours 2 minutes 1 
My Job Flow4 u FAILED 2011-02-22 08:43 PST Ohours 3 minutes 1 
My Job Flow2 «9 FAILED 2011-02-22 08:25 PST O hours 3minutes — 1 
My Job Flow2 «$ FAILED 2011-02-22 07.29 PST Ohours 3minutes 1 
My Job Flow “S FAILED 2011-02-22 07:25 PST Ohours 0 minutes 0 
mrMean “ FAILED 2011-02-22 07:17 PST Ühours 0 minutes 0 


图 15-8 EMR 控 制 台 显示 出 了 一 些 MapReduce 作 业 ， 本 章 的 
MapReduce 作 业已 经 在 这 张 图 中 启动 


新 建 的 任务 将 在 开始 运行 几 分 钟 之 后 完成 ， 可 以 通过 点 击 控制 台 顶 端的 S3 
选项 卡 来 观察 S3 的 输出 。 选 中 $3 控制 台 后 ， 点 击 之 前 创建 的 bucket (本 例 中 
是 rustbucket) 。 在 这 个 bucket 里 应 该 可 以 看 到 一 个 mrMean007Log 目 录 。 双 
击 打 开 该 目录 ， 可 以 看 到 一 个 文件 part-00000， 该 文件 就 是 reducer 的 输出 。 
双击 下 载 该 文件 到 本 地 机 器 上 ， 用 文本 编辑 如 打开 该 文件 ， 结 采 应 该 是 这 


oF 


100 0.509570 0.344439 


这 个 结果 与 单机 上 用 管道 得 到 的 测试 结果 一 样 ， 所 以 该 结果 是 正确 的 。 如 

宁 结 末 不 正确 ， 应 当 怎 样 找到 问题 所 在 呢 ? 退回 到 EMR 选 项 卡 ， 点 击 “ 已 经 
完成 的 任务 ”(Completed Job) ， 可 以 看 到 “调试 ”(Debug) 按钮 ， 上 面 还 

有 一 个 绿色 小 昆虫 的 动画 。 点 击 该 按钮 将 打开 调试 窗口 ， 可 以 访问 不 同 的 

日 志文 件 。 男 外 ， 点 击 “ 控 制 器 ” (Controller) 超 链接 ， 可 以 看 到 Hadoop 命 

令 和 Hadoop 版 本 号 。 


现在 我 们 已 经 运行 了 一 个 Hadoop 流 作业 ， 下 面 将 介绍 如 何在 Hadoop 上 执行 
2: 。MapReduce 可 以 在 多 台 机 器 上 运行 很 多 程序 ， 但 这 些 程序 需 
EMBER ° 


不 使 用 AWS 


UA? SEA, BATHE A CASA Rf. ERETTE 
ANH Las 3511 EA PEE © BREE TR ZA RS T Hadoop 
(http://hadoop.apache.org/common/docs/stable/#Getting+Started ) 


1. 将 文件 复制 到 HDFS: hadoop fs -copyFromLocal inputFile.txt 
mrmean-i 


. 局 动 任务 : 


N 


hadoop jar $HADOOP_HOME/contri b/streaming/hadoop-0.20.2-stream- 
ing.jar -input mrmean-i -output mrmean-o -mapper "python 
mrMeanMap- per.py" -reducer "python mrMeanReducer.py" 

.观察 结果 : 


UJ 


hadoop fs -cat mrmean-o/part-00000 


4. 下 载 结果 : 
hadoop fs -copyToLocal mrmean-o/part-00000 . 
完成 

15.4 MapReduce 上 的 机 器 学 习 


在 10 台 机 器 上 使 用 MapReduce 并 不 能 等 价 于 当前 机 器 10 倍 的 处 理 能 力 。 在 
MapReduce 代 码 编写 合理 的 情况 下 ， 可 能 会 近似 达到 这 样 的 性 能 ， 但 不 是 
个 程序 都 可 以 直接 提速 的 ，map 和 reduce 函 数 需 要 正确 编写 才 行 。 


很 多 机 器 学 习 算法 不 能 直接 用 在 MapReduce 框 架 上 。 这 也 没关系 ， 正 如 老话 
所 说 : “需求 是 发 明之 母 。” 科 学 家 和 工程 师 中 的 一 些 先驱 已 完成 了 大 多 数 
常用 机 妖 学 习 算 法 的 MapReduce 实 现 。 


下 面 的 清单 们 要 列 出 了 本 书 常 用 的 机 器 学 习 算 法 和 对 应 的 MapReduce 实 现 。 


简单 贝 叶 斯 一 一 它 属于 为 数 不 多 的 可 以 很 自然 地 使 用 MapReduce 的 算 

法 。 在 MapReduce 中 计算 加 法 非常 容易 ， 而 简单 贝 叶 斯 正 需要 统计 在 某 
个 类 别 下 某 特 征 的 概率 。 因 此 可 以 将 每 个 指定 类 别 下 的 计算 作业 交 由 

单个 的 mapper 处 理 ， 然 后 使 用 reducer 来 将 结果 加 和 。 


e K -近邻 算法 一 一 该 算法 首先 试图 在 数据 集 上 找到 相似 同 量 ， 即 便 数 据 
集 很 小 ， 这 个 步骤 也 将 花费 大 量 的 时 间 。 在 海量 数据 下 ， 它 将 极 大 地 
影 啊 日 党 商业 周期 的 运转 。 一 个 提速 的 办 法 是 构建 树 来 存储 数据 ， 利 


用 树 形 结构 来 缩小 搜索 范围 。 该 方法 在 特征 数 小 于 10 的 情况 下 效 采 很 
好 。 高 维 数据 下 (如 文本 、 图 像 和 视频 ) 流行 的 近邻 查找 方法 是 局 部 
敏感 哈 希 算法 。 


支持 向 量 机 (SVM) 一 一 第 6 章 使 用 的 Platt SMO 算 法 在 MapReduce 框 架 
下 难以 实现 。 但 有 一 些 其 他 SVM 的 实现 使 用 随机 梯度 下 降 算 法 求解 ， 

如 Pegasos 算 法 。 另 外 ， 还 有 一 个 近似 的 SVM 算法 叫做 最 邻近 文 持 同 量 
机 (proximal SVM) ， 求 解 更 快 并 且 易 于 在 MapReduce 框 架 下 实现 :。 
奇异 值 分 解 一 Lanczos 算 法 是 一 个 有 歼 的 求解 近似 特征 值 的 算法 。 该 
算法 可 以 应 用 在 一 系列 MapReduce 作 业 上 ， 从 而 有 效 地 找到 大 矩阵 的 奇 
异 值 。 另 外 ， 该 算法 还 可 以 应 用 于 主 成 分 分 析 。 

K- 均 值 聚 类 一 个 流行 的 分 布 式 聚 类 方法 叫做 canopy 聚 类 ， 可 以 移 调 
用 canopy 聚 类 法 取得 初始 的 K 个 复 ， 然 后 再 运行 k- 均 值 聚 类 方法 o 


1. Glenn Fung, Olvi L. Mangasarian, “PSVM: Proximal Support Vector Machine," [http://www.cs.wisc.edu/dmi/ svm/psvm/](http://www.cs.wisc.edu/dmi/ svm/psvm/). 


如 有 果 读 者 有 兴趣 了 解 更 多 机 器 学 习 方 法 的 MapReduce 实 现 ， 可 以 访问 Apache 
的 Mahout 项 目 主页 (http://mahout.apache.org/) 以 及 参考 Mahout in Action 一 
书 。 其 中 Mahout 项 目 以 Java 语 言 编 写 ， 该 书 也 对 处 理 大 规模 数据 的 实现 细 
六 做 了 很 详细 的 介绍 。 男 一 个 关于 MapReduce 很 棱 的 资源 是 Jimmy Lin 和 
Chris Dyer 写 的 Data Intensive Text Processing with Map/Reduce 一 书 。 


接 下 来 将 介绍 一 个 可 以 运行 MapReduce 作 业 的 Python 工具 。 


15.5 “在 Python 中 使 用 mrjob 来 自动 化 
MapReduce 


上 面 列举 的 算法 大 多 是 迭代 的 。 也 就 是 说 ， 它 们 不 能 用 一 次 MapReduce 作 业 
来 完成 ， 而 通常 需要 多 步 。 在 15.3 节 中 ，Amazon 的 EMR 上 运行 MapReduce 
作业 只 是 一 个 简 例 。 如 采 想 在 大 数据 集 上 运行 AdaBoost 算 法 该 怎么 办 呢 ? 
如 果 想 运行 10 个 MapReduce 作 业 呢 ? 


有 一 些 框架 可 以 将 MapReduce 作 业 流 上 自动化， 例如 Cascading 和 Oozie， 但 它 
们 不 文 持 在 Amazon 的 EMR 上 执行 。Pig 可 以 在 EMR 上 执行 ， 也 可 以 使 用 
Python 脚本 ， 但 需要 额外 学 习 一 种 脚本 语言 。 (Pig 是 一 个 Apache 项 目 ， 为 
文本 处 理 提 供 高 级 编程 语言 ， 可 以 将 文本 处 理 命 令 转 换 成 Hadoop 的 
MapReduce 作 业 。) 还 有 一 些 工具 可 以 在 Python 中 运行 MapReduce 作 业 ， 如 
本 书 将 要 介绍 的 mrjob。 


mrjob' (http;//packages.python.org/mrjob/ ) 之 前 是 Yelp (一 个 餐厅 点 评 网 
站 ) 的 内 部 框架 ， 它 在 2010 年 底 实 现 了 开源 。 读 者 可 以 参考 附录 A 来 学 习 如 
何 安装 和 使 用 。 本 书 将 介绍 如 何 使 用 mrjob 重 写 之 前 的 全 局 均值 和 方差 计算 
的 代码 ， 相 信 读 者 能 体会 到 mrjob 的 方便 快捷 。 (需要 指出 的 是 ，mrjob 是 一 
个 很 好 的 学 习 工 具 ， 但 仍然 使 用 Python 语言 编写 ， 如 果 想 获得 更 好 的 性 能 ， 
应 该 使 用 Java。) 


1.mrjob 文 档 : http://packages.python.org/mrjob/index.html; 源 代 码 : https://github.com/Yelp/mrjob. 


15.5.1 mrjob 与 EMR 的 无 颖 集成 


与 15.3 节 介绍 的 一 样 ， 本 节 将 使 用 mrjob 在 EMR 上 运行 Hadoop 流 ， 区 别 在 于 

mrjob 不 需要 上 传 数据 到 S3， 也 不 需要 担心 命令 输入 是 否 正 确 ， 所 有 这 些 都 

由 mrjob 后 台 完 成 。 有 了 mrjob， 读 者 还 可 以 在 自己 的 Hadoop 集 群 上 运行 

MapReduce 人 作业， 当然 也 可 以 在 单机 上 进行 测试 。 作 业 在 单机 执行 和 在 

ee 。 例如， 将 一 个 作业 在 单机 执行 ， 可 以 输入 
aS: 


% python mrMean.py < inputFile.txt > myOut.txt 


如 果 要 在 EMR 上 运行 同样 的 任务 ， 可 以 执行 以 下 命令 : 

96 python mrMean.py -r emr < inputFile.txt > myOut.txt 
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加 一 条 在 本 地 的 Hadoop 集 群 上 执行 作业 的 命令 :， 也 可 以 添加 一 些 命令 行 参 
数 来 指定 本 作业 在 EMR 上 的 服务 器 类 型 和 数目 。 


1. 意 指 除了 上 面 两 条 命令 之 外 ， 再 加 一 条 。 一 一 译 者 注 


另外 ，15.3 广 中 的 mapper 和 reducer 分 别 存 于 两 个 不 同 的 文件 中 ， 而 mrjob 中 
的 mapper 和 reducer 可 以 写 在 同一 个 脚本 中 。 下 蔬 将 展示 该 脚本 的 内 容 ， 并 
分 析 其 工作 原理 。 


15.5.2 ”mrjob 的 一 个 MapReduce 脚 本 剖析 
用 mrjob 可 以 做 很 多 事情 ， 本 书 仍 从 最 典型 的 MapReduce 作 业 开 始 介绍 。 为 


了 方便 阐述 ， 继 续 沿 用 前 面 的 例子 ， 计 算数 据 集 的 均值 和 方差 。 这 样 读者 
可 以 更 专注 于 框架 的 实现 细节 ， 所 以 程序 清单 15-3 的 代码 与 程序 清单 15-1 和 


15-2 的 功能 一 任 。 打 开 文 本 编辑 絮 ， 创 建 一 个 新 文件 mrMean.py， 并 加 入 下 
面 程序 清单 的 代码 。 


程序 清单 15-3 ”分 布 式 均值 方差 计算 的 mrjob 实 现 


from mrjob.job import MRJob 


class MRmean(MRJob): 
def | init (self, *args, **kwargs): 
super(MRmean, self). init (*args, **kwargs) 
self.inCount - 0 
self.inSum = 0 


self.inSqSum = 0 


# 接收 输入 数据 流 


def map(self, key, val): 


if False: yield 


inVal - float(val) 


self.inCount += 1 


self.inSum += inVal 


self.inSqSum += inVal*inVal 


# 所 有 输入 到 达 后 开始 处 理 


def map final(self): 


mn = self.inSum/self.inCount 


mnSq = self.inSqSum/self.inCount 


yield (1, [self.inCount, mn, mnSq]) 


def reduce(self, key, packedValues): 


cumVal=0.0; cumSumSq=0.0; cumN-0.0 


for valArr in packedValues: 


nj = float(valArr[0]) 


cumN += nj 


cumVal += nj*float(valArr[1]) 


cumSumSq += nj*float(valArr[2]) 


mean = cumVal/cumN 


var = (cumSumSq - 2*mean*cumVal + cumN*mean*mean)/cumN 


yield (mean, var) 


def steps(self): 


return ([self.mr(mapper=self.map, reducerzself.reduce,mapper final-self.map final 


MRmean.run() 


该 代码 分 布 式 地 计算 了 均值 和 方差 。 输 入 文本 分 发 给 很 多 mappers 来 计算 中 
则 值 ， 这 些 中 间 值 再 通过 reducer 进 行 奈 加 ， 从 而 计算 出 全 局 的 均值 和 方 


Ze 


为 了 使 用 mrjob 库 ， 需 要 创建 一 个 新 的 MRjob 继承 类 ， 在 本 例 中 该 类 的 类 名 
为 MRmean 。 代 码 中 的 mapper 和 reducer 都 是 该 类 的 方法 ， 此 外 还 有 一 个 叫做 
steps() 的 方法 定义 了 执行 鸭 步 又。 执行 顺序 不 必 完 全 遵从 于 map-reduce 的 
模式 ， 也 可 以 是 map-reduce-reduce-reduce， 或 者 map-reduce-map-reduce-map- 
reduce (下 节 会 给 出 相关 例子 ) ° 在 steps() 方法 里 ， 需 要 为 mrjob 指 定 
mapper 和 reducer 的 名 称 。 如 采 未 给 出 ， 它 将 默认 调用 mapper 和 reducer 方 
ix ° 


首先 来 看 一 下 mapper 的 行为 : 它 类 似 于 for 循环 ， 在 每 行 输入 上 执行 同样 的 
步骤 。 如 果 想 在 收 到 所 有 的 输入 之 后 进行 某 些 处 理 ， 可 以 考虑 放 在 
mapper_final 中 实现 。 这 和 企 看 起 来 有 些 古 怪 ， 但 非常 实用 。 男 外 在 mapper() 
和 mapper_final() 中 还 可 以 共享 状态 。 所 以 在 上 述 例 子 中 ， 首 先 在 mapper() 
中 对 输入 值 进 行 积累 ， 所 有 值 收集 完毕 后 计算 出 均值 和 平方 均值 ， 最 后 把 
这 些 值 作 为 中 间 值 通过 yield 语句 传 出 去 。! 


1. 在 一 个 标准 的 map-reduce 流 程 中 ， 作 业 的 输入 即 mapper 的 输入 ， mapper 的 输出 也 称 为 中 间 值 ， 中 间 值 经 过 排序 、 组 合 等 操作 会 转 为 reducer 的 输入 ， 而 reducer 的 输出 即 


为 作业 的 输出 。 一 一 译 者 注 


中 间 值 以 key/value 对 的 形式 传递 。 如 果 想 传 出 去 多 个 中 间 值 ， 一 个 好 的 办 
法 是 将 它们 打包 成 一 个 列表 。 这 些 值 在 map 阶段 之 后 会 按照 key 来 排序 。 
Hadoop 提 供 了 更 改 排序 方法 的 选项 ， 但 默认 的 排序 方法 足以 应 付 大 多 数 的 
常见 应 用 。 拥 有 相同 key 的 中 间 值 将 发 送 给 同一 个 reducer。 因 此 你 需要 考虑 
key 的 设计 ， 使 得 在 sort 阶 段 后 相似 的 值 色 g 够 收集 在 一 起 。 这 里 所 有 的 
mapper 都 使 用 “1” 作 为 key， 因 为 我 希望 所 有 的 中 间 值 都 在 同一 个 reducer 里 加 
和 起 来 。: 


2. 只 要 所 有 mapper 都 使 用 相同 的 key 就 可 以 。 当 然 ， 不必 是 “1”， 也 可 以 是 其 他 值 。 译 者 注 


mrjob 里 的 reducer 与 mapper 有 一 些 不 同 之 处 ，reducer 的 输入 存放 在 迭代 器 
对 象 里 。 为 了 能 读 取 所 有 的 输入 ， 需 要 使 用 类 似 for 循环 的 迭代 器 e mapper 
或 mapper_ final 和 reducer 之 间 不 能 共享 状态 ， 因为 Python 脚本 在 map 和 
reduce 阶 段 中 间 没 有 保持 活动 。 如 果 需 要 在 mapper 和 reducer 之 间 进 行 任何 
通信 ， 那 么 只 能 通过 key/value 对 。 在 reducer 的 最 后 有 一 条 输出 语句 ， 该 语 


句 没有 key， 因 为 输出 的 key 值 已 经 固定 。 如 果 该 reducer 之 后 不 是 输出 而 是 
执行 另 一 个 mapper ， 那 么 key 仍 需要 赋值 。 


无 须 多 言 下 面 看 一 下 实际 效果 ， 先 运行 一 下 mapper ， 在 Linux/DOS 的 命令 
行 输入 下 面 的 合 命令 (注意 不 是 在 Python 提示 符 下 ) 。 其 中 的 文件 inputFile.txt 
在 第 15 章 的 代码 里 。 


%python mrMean.py --mapper < inputFile.txt 


运行 该 命令 后 ， 将 得 到 如 下 输出 : 


1 [100, 0.50956970000000001, 0.34443931307935999] 


要 运行 整个 程序 ， 移 除 - -mapper 选项 


%python mrMean.py < inputFile.txt 


你 将 在 屏幕 上 看 到 很 多 中 间 步 又 的 描述 文字 ， 最 终 的 输出 如 下 : 


streaming final output from c:\users\peter\appdata\local 
NtempNnrMean.Peter.20110228.172656.279000NoutputNpart -00000 
0.50956970000000001 0.34443931307935999 

removing tmp directory c:\users\peter\appdata\local\ 
tempNmrMean.Peter.20110228.172656.279000 


To stream the valid output into a file, enter the following command: 


%python mrMean.py < inputFile.txt > outFile.txt 


最 后 ， 要 在 Amazon 的 EMR 上 运行 本 程序 ， 输 入 如 下 命令 (确保 你 已 经 设 定 
了 环境 变量 Aws_ACCESS_KEY_ID 和 AWS_SECRET_ACCESS_KEY ， 这 些 变量 的 设 定 


见 附录 A) 。 


spython mrMean.py -r emr < inputFile.txt > outFile.txt 


完成 了 mrjob 的 使 用 练习 ， 下 面 将 用 它 来 解决 一 些 机 器 学 习 问 题 。 上 文 提 
到 ， 一 些 迭 代 算 法 仅 使 用 EMR 难 以 完成 ， 因 此 下 一 节 将 介绍 如 何 用 mrjob 完 
成 这 项 任务 。 


15.6 “示例 : 分 布 式 SVM 的 Pegasos 算 法 


第 4 章 介绍 过 一 个 文本 分 类 算法 ， 朴 素 贝 叶 斯 。 该 算法 将 文本 文档 看 做 是 记 
汇 空间 里 的 向 量 。 第 6 章 又 介绍 了 效果 很 好 的 SVM 分 类 算法 ， 该 算法 将 每 个 
文档 看 做 是 成 千 上 万 个 特征 组 成 的 向 量 。 


在 机 器 学 习 领 域 ， 海 量 文档 上 做 文本 分 类 面临 很 大 的 挑战 。 怎 样 在 如 此 大 
的 数据 上 训练 分 类 恬 呢 ? 如 果 能 将 算法 分 成 并 行 的 子 任务 ， 那么 MapReduce 
框架 有 望 帮 我 们 实现 这 一 点 。 回 忆 第 6 章 ，SMO 算 法 一 次 优化 两 个 支持 癌 
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容易 并 行 化 。 


在 MapReduce 框 架 上 使 用 SVM 的 一 般 方法 


1. 收集 数据 : 数据 按 文本 格式 存放 。 

2. 准备 数据 : 输入 数据 已 经 是 可 用 的 格式 ， 所 以 不 需 任 何 准备 工作 。 如 
果 你 需要 解析 一 个 大 规模 的 数据 集 ， 建 议 使 用 map 作 业 来 完成 ， 从 而 达 
到 并 行 处 理 的 目的 。 

分 析 数 据 : 无 。 

.训练 算法 : 与 普通 的 SVM 一 样 ， 在 分 类 器 训练 上 仍 需 伦 费 大 量 的 时 


间 。 
.测试 算法 ， 在 二 维 空间 上 可 视 化 之 后 ， 观 察 超 平面 ， 判 断 算法 是 否 有 
x o 

.使 用 算法 ， 本 例 不 会 展示 一 个 完整 的 应 用 ， 但 会 展示 如 何在 大 数据 集 


上 训练 SVM 。 该 算法 其 中 一 个 应 用 场景 驶 生 文 本 分 类 ， 通 稍 在 文本 分 
类 里 可 能 有 大 量 的 文档 和 成 和 上 万 的 特征 。 
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SMO 算 法 的 一 个 替代 品 是 Pegasos 算 法 ， 后 者 可 以 很 容易 地 写成 MapReduce 
的 形式 。 本 节 将 分 析 Pegasos 算 法 ， 介 绍 如 何 写 出 分 布 式 版 本 的 Pegasos 算 
法 ， 最 后 在 mrjob 中 运行 该 算法 。 


15.6.1 Pegasos 算 法 


Pegasos 是 指 原始 估计 梯度 求解 器 (Primal Estimated sub-GrAdient Solver) 

该 算法 使 用 某 种 形式 的 随机 梯度 下 降 方 法 来 解决 SVM 所 定义 的 优化 问题 ， 
研究 表明 该 算法 所 需 的 迭代 次 数 取 决 于 用 户 所 期 望 的 精确 度 而 不 是 数据 集 
Lo 有 关 细 市 可 以 参考 原文 '。 原 文 有 长 文 和 短文 两 个 版 本 ， 推 荐 阅读 


1. S. Shalev-Shwartz, Y. Singer, N. Srebro, “Pegasos: Primal Estimated sub-GrAdient SOlver for SVM,”Proceed- ings of the 24th International Conference on Machine Learning 2007. 


第 6 章 提 到 ，SVM 算 法 的 目的 是 找到 一 个 分 类 超 平面 。 在 二 维 情况 下 也 就 是 
要 找到 一 条 直线 ， 将 两 类 数据 分 隔 开 来 。Pegasos 算 法 工作 流程 是 : 从 训练 
集中 随机 挑选 一 些 样本 点 添加 到 待 处 理 列表 中 ， 之 后 按 序 判断 每 个 样本 点 
征 否 被 正确 分 类 ; 如 采 是 则 忽略 ， 如 果 不 是 则 将 其 加 入 到 待 更 狐 集 合 。 批 
处 理 完毕 后 ， 权 重 疝 量 按 照 这 些 错 分 的 样本 进行 更 新 。 整 个 算法 循环 执 
fT? 


上 述 算 法 仿 代 码 如 下 : 


将 w 初 始 化 为 9 


对 每 次 批 处 理 


随机 选择 k 个 样本 点 (向 量 ) 


如 果 该 向 量 被 错 分 : 


更 新 权重 向 量 w 


累加 对 w 的 更 新 


为 了 解 实际 效果 ，Python 版 本 的 实现 见 程 序 清单 15-4。 
程序 清单 15-4 SVM 的 Pegasos 算 法 


def predict(w, x): 


return w*x.T 


def batchPegasos(dataSet, labels, lam, T, k): 


m,n = shape(dataSet); w - zeros(n); 


dataIndex = range(m) 


for t in range(1, T+1): 


wDelta - mat(zeros(n)) 


eta = 1.0/(lam*t) 


random.shuffle(dataIndex) 


for j in range(k): 


P. 
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dataIndex[j] 


predict(w, dataSet[i,:]) 


5 
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if labels[i]*p < 1: 
wDelta += labels[i]*dataSet[i,:].A 
w = (1.0 - 1/t)*w + (eta/k)*wDelta 


return w 


代码 注释 翻译 为 : 
1: 将 待 更 新 值 素 加 


程序 清单 15-4 的 代码 是 Pegasos 算 法 的 串 行 版 本 。 输 入 值 r 和 k at T 35 
代 次 数 和 待 处 理 列表 的 大 小 。 在 T VOR AWE, REPT Reta 。 

它 是 学 习 率 ， 代 表 了 权重 调整 幅度 的 大 小 。 在 外 循环 中 ， 需 要 选择 另 一 批 

样本 进行 下 一 次 批 处 理 ， 在 内 循环 中 执行 批 处 理 ， 将 分 类 错误 的 值 全 部 累 

加 之 后 更 新 权重 向 量 @ 。 


如 果 想 试 试 它 的 效果 ， 可 以 用 第 6 章 的 数据 来 运行 本 例 程序 。 本 书 不 会 对 该 
代码 做 过 多 分 析 ， 它 只 为 Pegasos 算 法 的 MapReduce 版 本 做 一 个 铺垫 。 下 市 
将 在 mrjob 中 建立 并 运行 一 个 MapReduce 版 本 的 Pegasos 算 法 。 


15.6.2 ”训练 算法 用 mrjob 实 现 MapReduce 版 本 的 SVM 


本 市 将 用 MapReduce 来 实现 程序 清单 15-4 的 Pegasos 算 法 ， 之 后 再 用 15.5 广 讨 
论 的 mrjob 框 架 运 行 该 算法 。 上 下 先 要 明日 如 何 将 该 算法 划分 成 map 阶 段 和 
reduce 阶 段 ， 确 认 哪 些 可 以 并 行 ， 哪 些 不 能 并 行 。 


对 程序 清单 15-4 的 代码 运行 情况 稍 作 观 穴 将 会 发 现 ， 大 量 的 时 间 花 费 在 内 积 
计算 上 。 另 外 ， 内 积 运算 可 以 并 行 ， 但 创建 新 的 权重 变量 w 是 不 能 并 行 的 。 
这 束 是 将 算法 改写 为 MapReduce 作 业 的 一 个 切入 点 。 在 编写 mapper 和 reducer 
的 代码 之 前 ， 移 完成 一 部 分 外 围 代码 。 打 开 文 本 编辑 锅 ， 创 建 一 个 狐 文 件 
mrSVM.py， 然 后 在 该 文件 中 添加 下 面 程序 清单 的 代码 。 


程序 清单 15-5 ”mzrjob 中 分 布 式 Pegasos 算 法 的 外 围 代码 


from mrjob.job import MRJob 


import pickle 


from numpy import * 


class MRsvm(MRJob): 


DEFAULT INPUT PROTOCOL - 'json value' 


def _ init (self, *args, **kwargs): 


super(MRsvm, self). init (*args, **kwargs) 


self.data = pickle.load(open('«path to your Ch15 code directory>\svmDat27' )) 


self.w = 0 


self.eta = 0.69 


self.dataList = [] 


self.k = self.options.batchsize 


self.numMappers = 1 


self.t 
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def configure_options(self): 


super(MRsvm, self).configure options() 


self.add passthrough option('-- 


iterations', dest-'iterations', default-2, type-'int',help-'T: 


o run') 


self.add passthrough option('-- 


batchsize', dest='batchsize', default-100, type='int',help='k: 


in a batch') 


def steps(self): 


number of iterations t 


number of data points 


return ([self.mr(mapper=self.map, mapper_final=self.map_fin, reducer=self.reduce) ] 


*self.options.iterations) 


if name == ' gain ': 


MRsvm.run() 


程序 清单 15-5 的 代码 进行 了 一 些 设 定 ， 从 而 保证 了 map 和 reduce 阶 段 的 正确 
执行 。 在 程序 开头 ，Mrjob、NumPy 和 Pickle 模 块 分 别 通 过 一 条 ;include 语句 
导入 。 之 后 创建 了 一 个 mrjob 类 MRsvm ， 其 中 _ init () 方法 初始 化 了 一 些 
在 map 和 reduce 阶 段 用 到 的 变量 。Python 的 模块 Pickle 在 加 载 不 同 版 本 的 
Python 文件 时 会 出 现 问题 。 为 此 ， 我 将 Python2.6 和 2.7 两 个 版 本 对 应 的 数据 
文件 各 自 存 为 svmDat26 和 svmDat27。 


对 应 于 命令 行 输入 的 参数 ， Configure options() 方法 建立 了 一 些 变量 ， 
括 迭 代 次 数 (T) 、 待 处 理 列表 的 大 小 〈k ) 。 这 些 参数 都 是 可 选 的， 如 果 
未 指定 ， 它 们 将 采用 默认 值 。 


最 后 ，steps() 方法 告诉 mrjob 应 该 做 什么 ， 以 什么 顺序 来 做 。 它 创建 了 一 
个 Python 的 列表 ， 包 含 map、map_fin 和 reduce 这 几 个 步骤 ， 然 后 将 该 列表 乘 
以 闪 代 次 数 ， 即 在 每 次 迭代 中 重复 调用 这 个 列表 。 为 了 保证 作业 里 的 任务 
链 能 正确 执行 ，mapper 需 要 能 够 正确 读 取 reducer 输 出 的 数据 。 单 个 

n dee 中 无 须 考 虑 这 个 因素 ， 这 里 需要 特别 注意 输入 和 输出 格式 的 
对 以。 


我 们 对 输入 和 输出 格式 进行 如 下 规定 : 


-一 


Mapper 
Inputs: <mapperNum, valueList> 
Outputs: nothing 
Mapper_final 
Inputs: nothing 
Outputs: <1, valueList > 
Reducer 
Inputs: <mapperNum, valueList > 
Outputs: <mapperNum, valueList > 


传 入 的 值 是 列表 数组 ，valueList 的 第 一 个 元 素 是 一 个 字符 串 ， 用 于 表示 列 
表 的 后 面 存 放 的 是 什么 类 型 的 数据 ， 例 如 {'x',23} Mew, [1,5,61] 。 每 个 
mapper_final 都 将 输出 同样 的 key， 这 是 为 了 保证 所 有 的 key/value 对 都 输出 给 
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定义 好 了 输入 和 输出 之 后 ， 下 面 开 始 写 mapper 和 reducer 方 法 ， 打 开 
mrSVM.py 文 件 并 在 MRsvm 类 中 添加 下 面 的 代码 。 


程序 清单 15-6 ”分布 式 Pegasos 算 法 的 mapper 和 reducer 代 码 


def map(self, mapperId, inVals): 
if False: yield 
if invals[0]--'w': 
self.w - inVals[1] 
elif inVals[0]--'x': 
self.dataList.append(inVals[1]) 
elif inVals[0]--'t': self.t = inVals[1] 
def map_fin(self): 
labels = self.data[:,-1]; X=self.data[:,0:-1] 
if self.w == 0: self.w = [0.001]*shape(X) [1] 
for index in self.dataList: 
p = mat(self.w)*X[index,:].T 
if labels[index]*p « 1.0: 
yield (1, ['u', index]) 
yield (1, ['w', self.w]) 
yield (1, ['t', self.t]) 
def reduce(self, _, packedVals): 


for valArr in packedVals: 


if valArr[0]--'u': self.dataList.append(valArr[1]) 


elif valArr[0]=='w': self.w = valArr[1] 


elif valArr[0]--'t': self.t = valArr[1] 


labels = self.data[:,-1]; X=self.data[:,0:-1] 


wMat - mat(self.w); wDelta - mat(zeros(len(self.w))) 


for index in self.dataList: 


#@ HESARI 


wDelta += float(labels[index])*X[index,:] 


eta - 1.0/(2.0*self.t) 


wMat = (1.0 - 1.0/self.t)*wMat + (eta/self.k)*wDelta 


for mapperNum in range(1, self.numMappers+1) : 


yield (mapperNum, ['w', wMat.tolist()[0] ]) 


if self.t < self.options.iterations: 


yield (mapperNum, ['t', self.t+1]) 


for j in range(self.k/self.numMappers): 


yield (mapperNum, ['x',random.randint(shape(self.data)[0]) ]) 


程序 清单 15-6 里 的 第 一 个 方法 是 map() ， 这 也 征 分 布 式 的 部 分 ， 它 得 到 竹 入 
值 并 存储 ， 以 便 在 map_fin() 中 处 理 。 该 方法 支持 三 种 类 型 的 输入 : w 向 
量 、t 或 者 x。t 是 迭代 次 数 ， 在 本 方法 中 不 参与 运算 。 状 态 不 能 保存 ， 因 
此 如 果 需 要 在 每 次 迷 代 时 保存 任何 变量 并 留 给 下 一 次 迭代 ， 可 以 使 用 
key/value 对 传递 该 值 ， 抑 或 是 将 其 保存 在 磁盘 上 “。 显 然 前 者 更 容易 实现 ， 


map fin() 方法 在 所 有 输入 到 达 后 开始 执行 。 这 时 已 经 获得 了 权重 向 量 w 和 
本 次 批 处 理 中 的 一 组 x 值 。 每 个 x 值 是 一 个 整数 ， 它 并 不 是 数据 本 号 ， 而 是 
索引 。 数 据 存储 在 磁盘 上 ， 当 脚本 执行 的 时 候 读 入 到 内 存 中 。 当 map_fin( ) 
启动 时 ， 它 首先 将 数据 分 成 标 答 和 数据， 然后 在 本 次 批 处 理 的 数据 (存储 
在 self.dataList Ei) 上 进行 和 迭代， 如 果 有 任何 值 被 错 分 就 将 其 输出 给 

reducer。 为 了 在 mapper 和 reducer 之 间 保 存 状 态 ，w 回 量 和 t 值 都 应 被 发 送 给 


reducer ? 


最 后 是 reduce() 函数 ， 对 应 本 例 只 有 一 个 reducer 执 行 。 ER TAE EIA RAT 

有 的 key/value 对 并 将 值 解 包 到 一 个 局 部 变量 datalist 里 。 里 

的 值 都 将 用 于 更 新 权重 向 量 w ， 更 新 量 在 wpelta 中 完成 累加 @。 人 然后 ，wMat 
按照 wpelta M] Keta 进行 更 新 。 在 wMat 更 狐 完毕 后 ， 叉 可 以 重新 开始 

整个 过 程 ， 一 个 新 的 批 处 理 过 程 开始 ， 随 机 选择 一 组 癌 量 并 输出 。 注 意 ， 

这 些 癌 量 的 key 是 mapper 编 号 。 


为 了 看 一 下 该 算法 的 执行 效果 ， 还 需要 用 一 些 类 似 于 reducer 输 出 的 数据 作 
为 输入 数据 启动 该 任务 ， 我 为 此 附 上 了 一 个 文件 kickStart.txt。 在 本 机 上 执 
行 前 面 的 代码 可 以 用 下 面 的 命令 : 


%python mrSVM.py < kickStart.txt 


streaming final output from c:\users\peter\appdata\local\temp 
\mrSVM. Peter .20110301.011916.373000\0utput\part-00000 

1 ["w", [0.51349820499999987, -0.084934502500000009]] 
removing tmp directory c:\users\peter\appdata\local\temp 


NXmrSVM.Peter.20110301.011916.373000 
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: — 50 Iterations 
4 --- 2 Iterations 


746 -4 =2 0 2 4 6 8 


图 15-9 ”经 过 多 次 迭代 的 分 布 式 Pegasos 算 法 执行 结果 。 该 算法 收敛 迅速 ， 
多 次 迭代 后 可 以 得 到 更 好 的 结果 

如 果 想 在 EMR 上 运行 该 任务 ， 可 以 添加 运行 参数 : -remr。 该 作业 默认 使 用 
的 服务 器 个 数 是 1。 如果 要 调整 的 话 ， 添 加 运行 参数 : --num-ec2- 
instances=2 (这 里 的 2 也 可 以 是 其 他 正 整 数 ) ， 整 个 命令 如 下 : 


%python mrSVM.py -r emr --num-ec2-instances=3 < kickStart.txt > myLog.txt 


要 查看 所 有 可 用 的 运行 参数 ， 输入 %python mrSVM.py -h ° 
调试 mrjob 


调试 一 个 mrjob 脚 本 将 比 调 试 一 个 简单 的 Python 脚本 环 手 得 多 。 这 里 仅 
给 出 一 些 调试 建议 。 


确保 已 经 安装 了 所 有 所 需 的 部 件 ，boto、simplejson 和 可 选 的 

PyYAML ° 

可 以 在 ~/.mrjob.conf 文 件 中 设 定 一 些 参 数 ， 确 定 它们 是 正确 的 。 

。 在 将 作业 放 在 EMR 上 运行 之 前 ， 尽 可 能 在 本 地 多 做 调试 。 能 在 花费 10 
秒 束 发 现 一 个 错误 的 情况 下 ， 束 不 要 花费 10 分 钟 才 发 现 一 个 错误 。 

。 检查 base_temp_dir 目 录 ， 它 在 ~/.mrjob.conf 中 设 定 。 例 如 在 我 的 机 器 

上 上 ， 该 日 录 的 存放 位 置 是 /scratch/$SUSER， 其 中 可 以 看 到 作业 的 输入 和 

输出 ， 它 将 对 程序 的 调试 非常 有 帮助 。 


。 一 次 只 运行 一 个 步 又 。 


到 现在 为 止 ， 读 者 已 经 学 习 了 如 何 编 写 以 及 如 何在 大 量 机 右上 运行 机 器 学 
习作 业 ， 下 市 将 分 析 这 样 做 的 必要 性 。 


15.7 ”你 真 的 需要 MapReduce 吗 ? 


不 需要 知道 你 是 谁 ， 我 可 以 说 ， 你 很 可 能 并 不 需要 使 用 MapReduce 和 
Hadoop， 因 为 单机 的 处 理 能 力 已 经 足够 强大 。 这 些 大 数据 的 工具 是 
Google、Yelp 和 Facebook 等 公司 开发 的 ， 世 界 上 能 有 多 少 这 样 的 公司 ? 


充分 利用 已 有 资源 可 以 市 省 时 间 和 精力 。 如 采 你 的 作业 花费 了 太 多 的 时 
间 ， 先 问 问 自己 : 代码 是 否 能 用 更 有 效率 的 语言 编写 (如 C 或 者 Java) ? 如 
果 语 言 已 经 足够 有 效率 ， 那 么 代码 是 否 经 过 了 充分 的 优化 ? 影响 处 理 速 度 
的 系统 瓶颈 在 哪里 ， 是 内 存 还 是 处 理 器 ? 或 许 你 不 知道 这 些 问 题 的 答案 ， 
找 一 些 人 做 些 咨 询 或 讨论 将 非常 有 益 。 


大 多 数 人 意识 不 到 单 台 机 器 上 可 以 做 多 少数 字 运 算 。 如 果 没 有 大 数据 的 问 
题 ， 一 般 不 需要 用 到 MapReduce 和 Hadoop。 但 对 MapReduce 和 Hadoop 稍 作 
a A TÉ AREY A) UY AEE Be EET A. CERE 
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15.8 ”本 章 小 结 


当 运 算 需 求 超出 了 当前 资源 的 运算 能 力 ， 可 以 考虑 购买 更 好 的 机 器 。 

另 一 个 情况 是 ， 运 算 需 求 超出 了 合理 价位 下 所 能 购买 到 的 机 器 的 运算 
能 力 。 其 中 一 个 解决 办 法 是 将 计算 转 成 并 行 的 作业 ，MapReduce 就 提供 
了 这 种 方案 的 一 个 具体 实施 框架 。 在 MapReduce 中 ， 作 业 被 分 成 map 阶 
段 和 reduce 阶 段 。 


一 个 典型 的 作业 流程 是 先 使 用 map 阶 段 并 行 处 理 数 据 ， 之 后 将 这 些 数 据 
在 reduce 阶 段 合 并 。 这 种 多 对 一 的 模式 很 典型 ， 但 不 是 唯一 的 流程 方 
式 。mapper 和 reducer 之 间 传 输 数据 的 形式 是 key/value 对 。 一 般 地 ，map 
阶段 后 数据 还 会 按照 key 值 进行 排序 。Hadoop 是 一 个 流行 的 可 运行 
MapReduce 作 业 的 Java 项 目 ， 它 同时 也 提供 非 Java 作 业 的 运行 文 持 ， 叫 
做 Hadoop 流 。 


Amazon 网 络 服务 (AWS) 人 允许 用 户 按时 长 租借 计算 资源 。 弹 性 
MapReduce (EMR) 是 Amazon 网 络 服 务 上 的 一 个 常用 工具 ， 可 以 帮助 
用 户 在 AWS 上 运行 Hadoop 流 作业 。 人 简单 的 单 步 MapReduce 任 务 可 以 在 
EMR 管 理 控 制 台 上 实现 并 运行 。 更 复杂 的 任务 则 需要 额外 的 工具 。 其 
中 一 个 相对 新 的 开源 工具 是 mrjob， 使 用 该 工具 可 以 顺序 地 执行 大 量 的 
MapReduce 作 业 。 经 过 很 少 的 配置 ，mrjob 束 可 以 目 动 完 成 AWS 上 的 各 
PHAR TR ° 
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学 习 算 法 需要 经 过 创新 性 的 修改 ， 才 能 在 MapReduce 上 运行 。SVM 和 是 
一 个 强大 的 文本 分 类 工具 ， 在 大 量 文档 上 训练 一 个 分 类 絮 需 要 耗费 巨 
大 的 计算 人 资源， 而 Pegasos 算 法 可 以 分 布 式 地 训练 SVM 分 类 器。 像 
Pegasos 算 法 一 样 ， 需 要 多 次 MapReduce 作 业 的 机 器 学 习 算 法 可 以 很 方 
便 地 使 用 mrjob 来 实现 。 


到 这 里 为 止 ， 本 书 的 正文 部 分 就 结束 了 ， 感 谢 你 的 阅读 。 硕 望 这 本 书 
能 为 你 开局 新 的 大 [ 门 。 另外， 在 机 需 学 习 的 数学 和 具体 实现 方面 还 有 
很 多 东西 值得 探索 。 我 很 期 竺 你 能 使 用 在 本 书 里 学 到 的 工具 和 技术 开 
发 出 一 些 有 趣 的 应 用 。 
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本 附录 首先 介绍 如 何在 三 种 流行 的 操作 系统 下 安装 Python， 同 时 简要 地 
给 出 一 些 Python 的 入 门 知识 ， 之 后 给 出 一 些 本 书 提 到 的 Python 模块 的 安 
装 方法 。 最 后 介绍 NumPy 库 ， 也 许 把 它 安排 在 附录 B 与 那里 的 线性 代数 
一 超 讨论 更 合适 。 


A.1 Python 安装 


要 运行 本 书 提供 的 代码 ， 需 要 安装 Python 2.7、Numpy 和 Matplotlib。 由 
于 Python 不 文 持 向 下 兼容 ， 因 此 在 Python 3.x 下 ， 本 书 代码 不 一 定 能 正 
常 运行 。 上 壕 模 块 最 简单 的 安装 方法 就 是 用 软件 包 安 装 程序 来 安装 。 
这 些 安装 包 在 Mac OS 和 Linux 下 都 有 提供 。 


A.1.1 Windows 系 统 


可 以 从 http://www.python.org/getit 下 载 ， 注 意 选 择 合适 的 Windows 安 厂 
包 〈64 位 或 32 位 ) 并 按说 明 进 行 操 作 。 


Numpy 文 件 ， 这 种 安装 方式 可 以 省 去 自己 编译 的 碘 烦 。 


安 闭 完毕 后 惑 可 以 打开 Python 命令 行 了 。 在 “运行 ?窗口 输入 cmd 命 令 打 
开 命 令 提示 符 ， 然 后 键入 以 下 命令 : 


>c:\Python27\python. exe 


这 样 Python 命令 行 融会 司 动 ， 同 时 可 以 看 到 当前 Python 的 版 本 号 和 编译 
时 间 等 信息 。 


如 果 读 者 不 想 在 启动 Python 的 时 候 输 入 如 此 长 的 命令 
(c:\Python27\python.exe ) i 可 以 为 python 命令 创建 一 个 别名 e d 
们 将 创建 别名 的 细节 留 给 读者 目 己 实现 。 


如 果 想 找到 最 新 的 二 进 制 Matplotlib 文 件 ， 可 以 从 Matplotlib 主 页 
http://matplotlib.sourceforge.net/ 找到 最 新 下 载 地 址 。 它 的 安装 相当 简 
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A.1.2 Mac OS XAR 


在 Mac OS X 下 安装 Python、NumPy 和 Matplotlib 的 最 佳 方法 就 是 使 用 
MacPorts。MacPorts 是 一 个 免费 工具 ， 可 以 人 简化 Mac 系 统 上 软件 的 编译 
和 安装 。 有 关 Macports 的 资料 参见 http:/www.macports.org/。 首先 必须 
下 载 MacPorts， 最 好 的 方法 就 是 下 载 正 确 的 .dmg 文 件 。 在 该 站 点 选择 当 
前 版 本 的 Mac OS X 系 统 对 应 的 .dmg 文 件 。 下 载 完成 后 进行 安装 ， 
MacPorts 安 装 完毕 后 打开 一 个 新 的 终端 窗口 ， 输 入 以 下 命令 : 


>sudo port install py27-matplotlib 
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络 速度 的 不 同 ， 安 装 时 间 也 不 尽 相 同 ， 如 果 安 朔 过 程 持续 一 小 时 也 都 
是 正常 的 。 

当然 ， 如 果 读 者 不 想 安装 MacPorts， 也 可 以 分 别 安装 Python、NumPy 和 
o 它们 均 有 Mac OS X 版 本 的 二 进 制 安 闭 软 件 包 ， 安 装 起 来 也 
很 方便 。 


A.1.3 Linux 


在 Debian/Ubuntu 系 统 下 安装 Python、NumPy 和 Matplotlib 的 最 佳 方式 是 
使 用 apt-get 或 者 其 他 发 布 版 本 中 相应 的 软件 包 管 理 硕 。 安 装 Matplotlib 
时 会 检查 其 依赖 组 件 是 否 已 经 安装 。 由 于 Matplotlib 依 赖 于 Python 和 
NumPy， 因 此 安装 Matplotlib 时 要 确保 已 经 安装 了 Python 和 NumPy。 


要 安装 Matplotib， 打 开 命令 行 输入 以 下 命令 : 


>sudo apt-get install python-matplotlib 


根据 机 器 配置 和 网 络 速度 的 不 同 ， 安 装 时 间 也 不 相同 ， 整 个 安装 过 程 
需要 花费 一 些 时 间 < 


至 此 Python 已 经 安装 完毕 ， 下 下 将 介绍 Python 中 的 几 种 数据 类 型 o 


A.2 Python 入 门 


下 面 介 绍 本 书 中 用 到 的 Python 功能 。 本 书 不 对 Python 做 详尽 的 描述 ， 如 
果 读 者 有 兴趣 ， 推 荐 阅读 Elkner、Downey 和 Meyers 的 在 线 免 费 资 

T “How to Think Like a Computer 

器 类 型 (collection type) 和 控制 结构 (control structure) ° 几乎 每 种 
编程 语言 都 有 类 似 的 功能 ， 这 里 着 重 给 出 它们 在 Python 中 的 用 法 。 本 节 
最 后 介绍 了 列表 推导 式 (list comprehension) ， 这 是 初学 Python 时 最 容 
易 感 到 困惑 的 部 分 。 


A.2.1 容器 类 型 


Python 提供 多 种 数据 类 型 来 存放 数据 项 集合 。 此 外 ， 用 户 还 可 以 通过 汪 
加 模块 创建 出 更 多 容器 类 型 。 下 面 列 出 了 几 个 Python 中 常用 的 容器 。 


.列表 (Lis) — 列表 是 Python 中 存放 有 序 对 象 的 容器 ， 可 以 容纳 
任何 数据 类 型 数值、 布尔 型 、 字 符 串 等 等 。 列 表 一 般 用 两 个 括 
号 来 表示 ， 下 面 的 代码 演示 了 如 何 创建 一 个 名 为 jj 的 列表 ， 并 在 
列表 内 添加 一 个 整数 和 一 个 字符 串 : 


>>> jj-[] 


>>> jj.append(1) 


>>> jj.append('nice hat') 


>>> jj 


[1, 'nice hat'] 


当然 ， 还 可 以 把 元 素 直 接 放 在 列表 里 。 例 如 ， 上 壕 列 表 jj 还 可 以 用 下 
面 的 语句 一 次 性 构建 出 来 : 


>>> jj = [1, 'nice hat'] 


与 其 他 编程 语言 类 似 ，Python 中 也 有 效 组 数据 类 型 。 但 数组 中 仅 能 存放 
同一 种 类 型 的 数据 ， 在 循环 的 时 候 它 的 性 能 优 于 列表 。 为 避免 跟 
NumpPy 中 的 数组 产生 混淆 ， 本 书 将 不 会 使 用 该 结构 。 


。 字 典 (Dictionary) 一 一 字典 是 一 个 存放 无 序 的 键 值 映射 
(key/value) 类 型 数据 的 容器 ， 键 的 类 型 可 以 是 数字 或 者 字符 
串 。 在 其 他 编程 语言 中 ， 字 — 典 一 般 被 称 为 天 联 数组 (associative 
array) 或 者 映射 (map) 。 下 面 的 命令 创建 了 一 个 字典 并 在 其 中 加 
入 了 两 个 元 素 : 


>>> jj={} 

>>> jj['dog']='dalmatian' 
>>> jj[1]=42 

>>> jj 


{1: 42, 'dog': 'dalmatian'} 


同样 ， 也 可 以 用 一 条 命令 来 完成 上 述 功能 : 


>>> jj = (1: 42, 'dog': 'dalmatian') 


。 集 合 (Se) — 这 里 的 集合 与 数学 中 集合 的 概念 类 似 ， 是 指 由 不 
同 元 素 组 成 的 合集 。 下 面 的 命令 可 以 从 列表 中 创建 一 个 集合 来 


>>> a=[1, 2, 2, 2, 4, 5, 5] 


>>> sA=set(a) 


>>> SA 


set([1, 2, 4, 5]) 


集合 支持 一 些 数学 运算 ， 例 如 并 集 、 交 集 和 补 集 。 并 集 用 管道 的 符号 
(|) 来 表示 ， 交 集 用 & 符号 来 表示 。 


>>> sB=set([4, 5, 6, 7]) 
>>> SB 

set([4, 5, 6, 7]) 

>>> SA-SB 

set([1, 2]) 

>>> SA | SB 

set([1, 2, 4, 5, 6, 7]) 
>>> SA & SB 


set([4, 5]) 


A.2.2 ”控制 结构 


Python 里 的 缩 进 非 第 重要， 这 点 也 引 来 了 也 不 少 人 的 抱 纺 ， 但 疗 格 的 缩 
进 也 能 迫使 编程 人 员 写 出 干净 、 可 读 性 强 的 代码 。 在 for 循环 、while 
循环 或 者 是 if 语句 中 ， 缩 进 用 来 标识 出 哪 一 段 代码 属于 本 循环 。 这 里 
的 缩 进 可 以 采用 空格 或 者 制 表 符 (tab) 来 完成 。 而 在 其 他 的 编程 语言 
中 ， 一 般 使 用 大 括号 { } 或 者 关键 字 来 实现 这 一 点 。 所 以 通过 使 用 缩 进 
和 
可 的 与 法 : 


1. If 


if 语句 非常 的 直观 ， 可 以 在 一 行内 完成 : 


>>> if jj < 3: print "it's less than three man" 


也 可 以 写成 多 行 ， 使 用 缩 进来 告诉 编译 器 本 语句 尚未 完成 。 这 两 
种 格式 都 是 可 以 的 。 


>>> if jj < 3: 
. print "it's less than three man" 
jj =jj+i1 


多 条 件 语句 的 关键 字 else if 在 Python 中 写 做 elif ， 而 else 在 
Python 中 仍 写 做 else。 


>>> if jj < 3: jj+=1 
. elif jj==3: jj+=0 


. else: jj = 0 


2. For 一 一 Python 中 的 for 循环 与 Java 或 C++0x :中 的 增强 的 for 循环 
类 似 ， 它 的 意思 是 用 for 循环 遍历 集合 中 的 每 个 元 素 。 下 面 分 别 以 
列表 、 集 合 和 字典 为 例 来 介绍 for 循环 的 用 法 : 


>>> sB=set([4, 5, 6, 7]) 


>>> for item in sB: 


. print item 


N 


1. C++0x， 后 来 也 称 为 CH+11， 即 ISOTEC 14882:2011， 是 目前 的 C++ 编程 语言 的 正式 标准 。 它 取代 第 二 版 标准 ISO/TEC 14882:2003(:8 — ISO/IEC 14882:1998 公 


开 于 1998 年 ， 第 二 版 于 2003 年 更 新 ， 分 别 通称 C++98 以 及 C++03， 两 者 差异 很 小 )。 一 HERE 
y 2 0 .SA IA 
TROIS] a HR: 
>>> jj={'dog': 'dalmatian', 1: 45} 
>>> for item in jj: 


. print item, jj[item] 


dog dalmatian 


可 以 看 到 ， 字 上 典 中 的 元 素 会 按键 值 大 小 顺序 遍历 。 
A.2.3 ”列表 推导 式 
新 手 接触 到 Python 最 容易 困惑 的 地 方 之 一 就 是 列表 推导 式 。 列 表 推 导 式 


用 较为 优雅 的 方式 生成 列表 ， 从 而 避免 大 量 的 见 余 代码 。 但 语法 有 所 
别扭 ， 下 面 先 看 一 下 实际 效 末 然后 再 做 讨论 : 


>>> a-[1, 2, 2, 2, 4, 5, 5] 


>>> myList = [item*4 for item in a] 


>>> myList 


[4, 8, 8, 8, 16, 20, 20] 


列表 推导 式 总 是 放 在 括号 中 。 上 述 代 码 等 价 于 : 
>>> myList=[] 
>>> for item in a: 


.. myList.append(item*4) 


>>> myList 


[4, 8, 8, 8, 16, 20, 20] 


可 以 看 到 ， 得 到 的 myList 结 果 是 一 样 的 ， 但 列表 推导 式 所 需 的 代码 更 
少 。 可 能 造成 困惑 的 原因 是 加 入 到 列表 的 元 素 在 for 循 环 的 前 面 。 这 点 
违 痛 了 从 左 到 右 的 文本 阅读 方式 。 


LM LZ 


>>> [item*4 for item in a if item>2] 


[16, 20, 20] 


用 列表 推导 式 可 以 写 出 更 有 创意 的 代码 ， 当 然 如 果 代 码 很 难 被 读 懂 ， 
应 尽量 实现 出 更 好 的 高 可 读 性 的 代码 。 回 顾 完 这 些 基础 知识 之 后 ， 下 
一 廊 将 介绍 如 何 安装 本 书 用 到 的 各 种 Python 模 块 。 


对 大 多 数 纯 Python 模 块 《没有 和 其 他 语言 的 绑 定 模块 ) 来 说 ， 直 接 进 入 
代码 的 解压 目录 ， 输入 >python setup.py install 即 可 安装 。 这 是 默认 
的 安装 方式 ， 如 果 对 模块 安装 方法 不 太 明 确 时 ， 可 以 尝试 一 下 上 述 命 

令 。Python 将 把 这 些 模块 安装 在 Python 主 目录 下 的 LibsN\site-packages 
子 目 孙 里 ， 因 此 不 必 担 心 模块 究竟 被 安装 到 哪个 地 方 或 者 清空 下 载 目 

孙 会 不 会 把 它 删 掉 。 


A.3 NumPy BE AT] 


NumPy 库 安装 完成 后 ， 读 者 可 能 在 想 : “这 东西 有 什么 好 处 ? ”正式 来 
说 ，NumPy 是 Python 的 一 个 矩阵 类 型 ， 提 供 了 大 量 和 窍 阵 处 理 的 函数 。 
非 正 式 来 说 ， 它 是 一 个 使 运算 更 容易 、 执 行 更 迅速 的 库 ， 因 为 它 的 内 
部 运算 是 通过 C 语 言 而 不 是 Python 实现 的 。 

尽管 声称 是 一 个 关于 和 抢 阵 的 库 ，NumPy 实 际 上 包含 了 两 种 基本 的 数据 
类 型 : 数组 和 矩阵。 二 者 在 处 理 上 稍 有 不 同 。 如 果 读 者 熟悉 MATLAB 
的 话 ， 和 抢 阵 的 处 理 将 不 是 难事 。 在 使 用 标准 的 Python 时 ， 处 理 这 两 种 
数据 类 型 均 需 要 循环 语句 。 而 在 使 用 NumPy 时 则 可 以 省 去 这 些 语句 。 
下 面 是 数组 处 理 的 一 些 例子 : 

>>> from numpy import array 

>>> mm-array((1, 1, 1)) 

>>> pp=array((1, 2, 3)) 


>>> pp-*mm 


array([2, 3, 4]) 


而 如 果 只 用 常规 Python 的 话 ， 完 成 上 述 功 能 需要 使 用 for 循环 。 


另外 在 Python 中 还 有 其 他 一 些 需要 循环 的 处 理 过 程 ， 例 如 在 每 个 元 素 上 
乘 以 常量 2， 而 在 NumPy 下 就 可 以 写成 : 


>>> pp*2 


array([2, 4, 6]) 


还 有 对 每 个 元 素平 方 : 


>>> pp**2 


array([1, 4, 9]) 


可 以 像 列 表 中 一 样 访问 数组 里 的 元 素 : 
>>> pp[1] 


2 


NumPy 中 也 文 持 多 维 数组 : 


>>> jj = array([[1, 2, 3], [1, 1, 1]]) 


多 维 数组 中 的 元 素 也 可 以 像 列表 中 一 样 访问 : 
>>> jj[9] 
array([1, 2, 3]) 
>>> jj[0][1] 


2 


也 可 以 用 矩阵 方式 访问 : 
>>> jj[0,1] 


2 


当 把 两 个 数组 乘 起 来 的 时 候 ， 两 个 数组 的 元 到 将 对 应 相 乘 : 


>>> al=array([1, 2,3]) 


>>> a2-array([0.3, 0.2, 0.3]) 
>>> al*a2 


array([ 0.3, 0.4, 0.9]) 


BET ZR AEE 。 
与 使 用 数组 一 样 ， 需 要 从 NumPy 中 导入 matrix 或 者 mat 模块 : 


>>> from numpy import mat, matrix 


上 述 NumPy 中 的 关键 字 mat 是 matrix 的 缩写 。 
>>> ss = mat([1, 2, 3]) 
>>> ss 
matrix([[1，2，3]]) 
>>> mm = matrix([1, 2, 3]) 
>>> mm 


matrix([[1, 2, 3]]) 


可 以 访问 矩阵 中 的 单个 元 素 : 


>>> mm[©, 1] 


nf DAEPythonZ|z& $15 BoNumPy Feb : 


>>> pyList = [5, 11, 1605] 
>>> mat(pyList) 


matrix([[ 5, 11, 1605]]) 


现在 试 试 将 上 述 两 个 矩阵 相 乘 : 
>>> mm*ss 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File "c:\Python27\lib\site-packages\numpy\matrixlib\defmatrix.py", 
line 330, i 
n mul . 


return N.dot(self, asmatrix(other)) 


ValueError: objects are not aligned 


可 以 看 到 出 现 了 一 个 错误 : 乘法 不 能 执行 。 和 矩阵 数据 类 型 的 运算 会 强 
制 执行 数学 中 的 矩阵 运算 ，1x3 的 矩阵 是 不 能 与 1x3 的 矩阵 相 乘 的 ( 左 
矩阵 的 列 数 和 右 和 矩阵 的 行 数 必须 相等 ; 。 这 时 需要 将 其 中 一 个 矩阵 转 
置 ， 使 得 可 以 用 3x1 的 矩阵 乘 以 1x3 的 和 矩阵， 或 者 是 1x3 的 和 矩阵 乘 以 3x1 
qe o ER 一 个 转 置 方法 ， 因 此 可 以 很 方便 地 进行 矩 
BESTIA E. 


>>> mm*ss.T 


matrix([[14]]) 


这 里 调用 了 .7 方法 完成 了 ss 的 转 置 。 


知道 矩阵 的 大 小 有 助 于 上 述 对 齐 错误 的 调试 ， 可 以 通过 NumPy 中 的 
shape 方法 来 查看 矩阵 或 者 数组 的 维 数 : 


>>> from numpy import shape 


>>> shape(mm) 


(1, 3) 


如 果 需 要 把 矩阵 mm 的 每 个 元 素 和 矩阵 ss 的 每 个 元 素 对 应 相 乘 应 该 怎么 
办 呢 ? 这 束 是 所 谓 的 元 系 相 乘法 ， 可 以 使 用 NumPy 的 multiply 方法 : 


>>> from numpy import multiply 
>>> multiply(mm, ss) 


matrix([[1, 4, 9]]) 


此 外 ， 和 矩阵 和 数组 还 有 很 多 有 用 的 方法 ， 如 排序 : 
>>> mm. sort() 


>>> mm 


matrix([[1, 2, 3]]) 


注意 该 方法 是 原 地 排序 ( 即 排序 后 的 结果 占用 原始 的 存储 空间 )， 所 以 如 
果 布 望 保 留 数据 的 原 序 ， 必 须 事先 做 一 份 拷贝 。 也 可 以 使 用 argsort() 
方法 得 到 和 矩阵 中 每 个 元 素 的 排序 序号 : 


>>> dd-mat([4, 5, 1]) 


>>> dd.argsort() 


matrix([[2, 9, 1]]) 


可 以 计算 矩阵 的 均值 : 
>>> dd.mean() 


3.3333333333333335 


再 回顾 一 下 多 维 数组 : 

>>> jj = mat([[1, 2, 3,], [8, 8, 8]]) 

>>> shape(jj) 

(2, 3) 
这 是 一 个 2x3 的 和 矩阵， 如 有 果 想 取出 其 中 一 行 的 元 素 ， 可 以 使 用 冒号 (: 
) 操作 符 和 行 号 来 完成 。 例 如 ， 要 取出 第 一 行 元 素 ， 应 该 输入 : 

s 

matrix([[8, 8, 8]]) 
还 可 以 指定 要 取出 元 素 的 范围 。 如 果 想 得 到 第 一 行 第 0 列 和 第 1 列 的 元 
素 ， 可 以 使 用 下 面 的 语句 : 

>>> jj[1,0:2] 

matrix([[8, 8]]) 


这 种 索引 方法 能 够 人 镜 化 NumPy 的 编程 。 在 数组 和 和 矩阵 数据 类 型 之 外 ， 
NumPy 还 提供 了 很 多 其 他 有 用 的 方法 。 我 建议 读者 浏览 完整 的 官方 文 


A.4 Beautiful Soup 包 


本 书 使 用 Beautiful Soup 包 来 查找 和 解析 HTML 。 要 安装 Beautiful 
Soup， 请 下 载 对 应 的 模块 : 


http://www.crummy.com/software/BeautifulSoup/#Download 。 
下 载 之 后 解压 ， 进 入 解压 日 隶 ， 输 入 下 面 的 命令 : 


>python setup.py install 


如 果 在 Linux 下 没有 权限 安装 的 话 ， 使 用 以 下 命令 
>sudo python setup.py install 


Python 的 模块 大 多 都 是 这 样 安装 的 ， 记 得 阅读 每 个 模块 和 目 融 的 


README. txt 文件 。 


A. Mrjob 


Mrjob 用 于 在 Amazon 了 网 络 服务 上 局 动 MapReduce 作 业 。 安 装 mrjob 与 
Python 中 其 他 模块 一 样 方便 : 打开 https://github.com/Yelp/mrjob， 在 页 
面 左边 可 以 看 到 “ZIP” 按 钮 ， 点 击 该 按钮 下 载 最 新 的 版 本 。 用 unzip 和 
untar 解 压 文件 ， 进 入 到 解压 目 录 后 在 Python 提示 符 下 输入 : 


>python setup.py install 


GitHub 已 经 列 出 了 很 多 代码 的 样 例 。 此 外 还 有 一 个 不 错 的 网 站 http 
://packages.python.org/mrjob/ 也 提供 了 一 些 Python 的 官方 文档 。 


在 AWS 上 正式 使 用 mrjob 之 前 ， 需 要 设置 两 个 环境 变量 : 

$AWS ACCESS KEY ID 和 $AWS_SECRET_ACCESS_KEY 。 它 们 的 值 应 该 设置 成 
你 的 账号 (如 果 你 拥有 账号 的 话 )  ， 该 账号 信息 可 以 在 登陆 AWS 后 ， 
在 Account > Security Credentials 页 面 看 到 。 


下 面 来 设 定 一 下 这 些 环境 变量 ， 打 开 命 令 行 提示 符 ， 输 入 以 下 命令 


>Set AWS ACCESS KEY ID-1269696969696969 


验证 一 下 是 否 有 效 : 


>echo %AWS ACCESS KEY_ID% 


同样 的 方法 可 以 完成 aws_sECRET_ACCESS_KEY 的 设置 。 


如 采 要 在 Mac OS X 上 设置 这 些 环境 变量 ， 打 开 终 端 窗口 (新 版 本 的 OS 
X 使 用 bash 命 令 行 ) ， 输 入 以 下 命令 : 


>AWS_ACCESS_KEY_ID=1269696969696969 


>export AWS ACCESS KEY ID 


同样 的 方法 可 以 完成 Aws_sECRET_ACCESS_KEY 的 设置 ， 注 意 字符 串 不 需 
要 引号 。 Ubuntu Linux 也 默认 使 用 bash 命 令 行 ， 所 以 上 述 Mac OS X 命 
令 也 同样 适用 。 如 果 读 者 使 用 的 是 其 他 命令 行 ， 请 自行 查找 相应 的 环 
境 变量 设置 方法 ， 不 会 很 难 。 


A.6 Vote Smart 


Vote Smart 项 目 是 一 个 美国 政治 数据 的 数据 源 ， 见 
http://www.votesmart.org/。 用户 能 通过 REST API 获 取 他 们 的 数据 。 
Sunlight 实 验 室 发 布 了 一 个 资料 齐全 的 Python 接口 来 使 用 该 API。 另 外 ， 
要 使 用 该 API 还 需要 授权 密 钥 (key) ， 可 以 从 


http://votesmart.org/services_api.php 申 请 。 


上 述 Python 接 口 可 以 从 这 里 下 载 : https://github.com/sunlightlabs/python- 
votesmart。 扣 击 页 面 左 边 的 “ZIP” 按 钮 下 载 最 新 的 版 本 。 下 载 完 毕 后 解 
压 ， 进 入 解压 目录 并 输入 下 面 的 命令 : 


>python setup.py install 


稍 候 片 刻 ， 因 为 API 的 密 钥 需要 一 段 时 间 激 活 。 作 者 的 API 在 提交 申请 
的 30 分 钟 后 才 得 以 激活 ， 激 活 后 你 将 收 到 一 封 邮 件 通知 。 这 样 束 可 以 
开始 找寻 那些 诡 媚 的 政客 们 了 ! 


A.7 Python-Twitter 


Python-Twitter 是 一 个 提供 访问 Twitter 数据 接口 的 模块 ， 可 以 在 
GoogleCode 上 找到 : http://code.google.com/p/python-twitter/ ° 下 载 地 
tik: http://code.google.com/p/python-twitter/downloads/list © 解压 tar 包 后 
进入 解压 日 录 ， 输 入 以 下 命令 : 


>python setup.py install 


这 样 就 完成 了 该 模块 的 安装 ， 在 申请 到 Twitter API 的 密 钥 之 后 ， 你 就 可 
以 用 Python 代码 在 Twitter 上 获取 和 发 布 信息 了 。 


附录 B 线性 代数 


为 理解 机 融 学 习 的 高 级 话题 ， 需 要 了 解 一 些 线性 代数 的 知识 。 如 采 想 
把 算法 从 学 术 论 文 上 搬 下 来 用 代码 实现 ， 或 者 研究 本 书 之 外 的 算法 ， 

很 可 能 需要 对 线性 代数 有 基本 的 理解 。 假 设 读者 有 过 这 方面 的 知识 ， 

但 是 由 于 过 去 一 段 时 间 需 要 回顾 这 方面 的 知识 ， 那 么 本 附 孙 可 以 提供 
线性 代数 的 简单 入 门 或 者 补习 。 如 采 读 者 没有 学 过 线性 代数 ， 那 么 我 
建议 在 大 学 选修 这 门 课 ， 或 者 读 完 一 本 目 学 教材 ， 或 者 通过 视频 来 学 
习 。 互 联网 上 有 很 多 免费 辅导 视频 '， 还 有 很 多 一 学 期 课程 的 免费 录像 
可 供 学 习 *。 读 着 可 能 听 说 过 “数学 不 是 一 种 仅 供 观 质 的 学 科 ” 这 一 说 

法 ， 事 实 确实 如 此 。 只 有 目 己 杀身 通过 例子 求解 才能 强化 基于 书本 或 
视频 的 学 习 效 采 。 


1. Gilbert Strang 有 些 报告 可 以 免费 观看 ， 地 址 为 http:Wwww:youtube.comy/watch?vy=ZK30402wflc 。 也 可 以 通过 地 址 http://ocw.mit.edu/courses/mathematics/18-06-linear- 


algebraspring-2010/ 获得 相关 课程 材料 。 他 的 报告 给 出 了 线性 代数 的 重点 内 容 ， 理 解 起 来 也 不 难 。 另 外 ， 他 的 计算 科学 的 研究 生 课程 也 非常 不 错 ， 地 址 为 


接 下 来 首 移 讨论 线性 代数 中 矩阵 这 一 基本 构件 。 然 后 介绍 和 窍 陡 上 的 一 
些 基 本 运算 ， 包 括 窍 孟 求 铸 。 再 搂 痢 介绍 机 天 学 习 中 利用 的 癌 量 范 数 
概念 。 最 后 介绍 矩阵 求 导 运 算 。 


B.1 ERẸ 


线性 代数 中 最 基本 的 数据 类 型 是 矩阵 。 短 阵 由 行 和 列 组 成 。 


图 B-1 给 出 了 一 个 简单 的 矩阵 样 例 。 该 矩阵 由 3 行 3 列 组 成 。 行 通常 从 上 
到 下 编写， 而 列 则 从 左 到 右 编写。 第 一 行 的 值 分 别 是 9、9 和 77。 类 似 
地 ， 第 3 列 的 值 分 别 是 77、18 和 10。 在 NumPy 当 中 可 以 通过 调用 
numpy.shape(myMat) 来 得 到 给 定 和 矩阵 myMat 的 行列 大 小 。 上 还 调 用 返回 
的 结果 形式 是 ( 行 数 ， 列 数 )。 


9 9 77 H 
UNE ue Ls 

4 1 48 

3 10 10 


图 B-1 一 个 简单 的 3x3 和 矩阵 ， 图 中 给 出 了 行 、 列 的 方向 


本 书 每 一 章 都 用 到 了 回 量 ， 而 向 量 是 一 个 特殊 的 矩阵 ， 其 行 或 列 数目 
为 1。 通 利 情 况 下 ， 所 到 癌 量 时 不 会 特别 说 是 行 回 量 还 是 列 癌 量 。 如 果 
这 样 ， 则 假设 古 列 向 量 。 图 B-2 左 部 给 出 了 一 个 列 向 量 ， 是 一 个 3x1 的 
和 矩阵。 而 在 图 B-2 右 部 给 出 的 是 一 个 1x3 的 行 同 量 。 在 矩阵 的 运算 过 各 
中 跟 踩 短 阵 的 大 小 十 分 重要 ， 比 如 和 矩阵 乘法 。 


| E: 


图 B-2 ”左边 给 出 了 一 个 列 向 量 ， 右 边 给 出 了 一 个 行 向 量 


和 矩阵 的 一 个 最 基本 的 运算 是 转 置 ， 即 按照 对 角 线 翻转 矩阵 。 原 来 的 行 
变 成 列 、 列 变 成 行 。 图 B-3 给 出 了 和 矩阵 B 的 一 个 转 置 过 程 示 意图 。 转 置 
运算 通过 矩阵 上 标的 一 个 大 写 的 T 来 表示 。 转 置 运算 闸 用 来 对 和 矩阵 处 理 


使 之 更 加 容易 计算 。 
-f | s. ， | 


图 B-3 ”和 矩阵 的 转 置 过 程 ， 转 置 后 行 变 成 列 


可 以 用 一 个 数字 去 加 或 者 乘 以 矩阵 ， 这 相当 于 对 和 矩阵 的 每 个 元 素 都 独 
并 进行 加 法 或 乘法 运算 。 由 于 和 矩阵 元 素 之 间 的 相对 值 没 有 发 生变 化 ， 
而 只 有 比例 发 生 了 变化 ， 所 以 上 述 这 类 运算 称 为 标量 运算 (scalar 
operation)。 如 有 果 想 对 矩阵 进行 常数 放 缩 变换 或 者 加 上 一 个 常数 偏 移 
值 ， 束 可 以 使 用 矩阵 标量 乘法 或 加 法 运算 。 图 B-4 给 出 了 标量 乘法 和 加 
法 的 两 个 例子 。 


图 B-4 ”矩阵 上 的 标量 运算 ， 最 后 的 结果 是 每 个 元 素 乘 上 或 者 加 上 某 个 


VAN 


授 下 来 看 一 些 矩 阵 运 算 。 如 何 对 两 个 矩阵 求 和 ? IC, WAEREA 
数 必 须要 相同 才能 进行 求 和 运算 。 甜 阵 求 和 相当 于 每 个 位 置 上 对 应 元 
素 求 和 。 图 B-5 给 出 了 一 个 例子 。 甜 阵 减 法 运算 与 此 类 似 ， 只 不 过 将 刚 
才 的 加 法 变 成 减法 即 可 。 


9 8 0 3 9 11 

247+ ]3 7] = [s 8 

3 4 5 2 8 6 
图 B-5 ”矩阵 求 和 


一 个 更 有 趣 的 运算 是 和 矩阵 乘法 。 两 个 矩阵 相 乘 不 像 标量 乘法 那么 简 
单 。 两 个 矩阵 要 相 乘 ， 前 一 个 矩阵 的 列 数 必 须要 等 于 后 一 个 矩阵 的 行 
数 。 例 如 ， 两 个 分 别 为 3x4 和 4x1 的 和 矩阵 可 以 相 乘 ， 但 是 3x4 的 和 矩阵 不 能 
和 1x4 的 和 矩阵 相 乘 。 而 3x4 的 和 矩阵 和 4x1 的 和 矩阵 相 乘 会 得 到 3x1 的 结果 和 抢 
阵 。 有 一 种 方法 可 以 快速 检查 两 个 矩阵 能 否 相 乘 以 及 结果 和 矩阵 大 小 ， 
将 它们 的 大 小 连 在 一 起 的 写法 (3x4)(4x1)。 由 于 中 间 的 值 相 等 ， 因 此 可 
以 进行 乘法 运算 。 去 掉 中 间 的 值 之 后 ， 就 可 以 得 到 结果 和 矩阵 的 大 小 
3x1。 图 B-6 给 出 了 一 个 矩阵 乘法 的 例子 。 


1 0 7 1x7+0x8 7 
X = 
4 1 8 4x7+1x8 36 


3 2 3x742x8 37 


oe ， 图 中 3x2 和 矩阵 乘 以 2x1 和 矩阵 得 到 一 个 
3x1 


本 质 上 来 说 ， 图 B-6 中 所 做 的 是 将 3x2 和 窍 阵 的 每 一 行 旋转 之 后 与 2x1 和 矩阵 
的 每 一 列 对 齐 ， 然 后 计算 对 应 元 系 的 乘积 并 和 最 终 求 和 。 矩 孟 相 乘 还 可 
以 看 成 是 列 的 加 权 求 和 (参见 图 B-7)。 


1 0 7 1 0 T 
x = 
4 1 8 7xl41+ 8*1 41] = | 36 


3 2 3 2 37 


图 B-7 矩阵 乘法 可 以 看 成 是 列 的 加 权 求 和 


在 上 面 第 二 种 看 法 下 ， 最 终 的 结 革 虽然 一 样 但 是 采用 了 不 同 的 组 织 
式 。 将 矩阵 乘法 看 成 是 列 加 权 求 和 对 于 某 些 算法 很 有 用 ， 比 如 和 矩阵 相 
乘 的 MapReduce 版 本 。 一 般 来 说 ， 两 个 矩阵 X 和 了 的 乘法 定义 为 : 


(XY), = > Xa Y, 
k=l 


A su 上 上 述 两 种 做 法 的 一 致 性 存疑 ， 那么 总 是 可 以 采用 上 式 来 对 和 矩阵 
p H o 


PERZ rb ft] — 1-8 ASE OR ACR BD o EAE 
持 向 量 机 中 就 需要 对 向 量 进行 内 积 计 算 。 两 个 向 量 进行 内 积 计算 时 
相应 元 素 相 乘 然 后 求 和 得 到 最 终 向 量 。 图 B-8 给 出 了 一 个 示意 图 。 


1 0 
4 e | 1 =1x0+4x1+3x2 = 10 
3 2 


图 B-8 ”两 个 向 量 的 内 积 计算 


通常 来 说 ， 向 量 内 积 还 有 一 层 物 理 含 义 ， 比 如 某 个 向 量 沿 着 另 一 个 向 
量 的 移动 量 。 向 量 的 内 积 可 以 用 于 计算 两 个 向 量 的 夹 角 余弦 值 。 在 任 
意 支 持 和 矩阵 乘法 的 程序 中 ， 可 以 通过 x 的 转 置 乘 以 y 实现 两 个 向 量 x 和 Y 
的 内 积 计 算 。 如 果 疝 量 x 和 Y 的 长 度 都 是 mn ， 那 么 两 个 辐 量 都 可 以 看 成 
mx1 的 和 矩阵， 因此 x * EL xmA FARE, x 7'*Y 是 1x1 的 矩阵 © 


B.2 FER 


SADE CRT IERT, £408 oe El REE AKER o DAE xv-r , RUP 
I 是 单位 阵 ( 单 位 阵 I 的 对 角 线 元 素 均 为 1， 而 其 他 元 素 痢 是 0。 EREE 
乘 以 单位 阵 仍 为 原始 矩阵 )， 则 称 x 是 v 的 逆 矩 阵 。 逆 矩阵 的 一 个 实 
际 缺 陷 是 当 和 矩阵 不 止 几 个 元 素 时 计算 很 麻烦 且 基 本 不 可 能 通过 手工 计 
算 。 了 解 矩 阵 什么 时 候 才 有 逆 很 有 帮助 ， 这 样 束 可 以 避免 程序 的 错 

ix o AERE B AAEM AA B 


AB ERE u] op EXE BE » IB ATT TBE, IEJHABUEHJTTAN S T 1 

数 。 即 使 矩阵 是 方 阵 ， 它 也 可 能 不 可 人 逆 。 如 果 某 个 矩阵 不 可 逆 ， 则 称 
它 为 奇异 (singula) 或 退化 (degenerate) 矩阵 。 如 果 某 个 矩阵 的 一 
列 可 以 表示 为 其 他 列 的 线性 组 合 ， 则 该 矩阵 是 奇异 矩阵 。 如 果 能 够 这 
样 表示 ， 则 可 以 把 一 列 全 部 归 约 为 0。 图 B-9 给 出 了 这 样 的 一 个 矩阵 样 
例 。 将 计算 矩阵 的 逆 时 ， 出 现 这 种 矩阵 就 非常 磋 烦 ， 因 为 出 现 了 除 符 


运算 。 后 面 会 介绍 这 一 点 。 


9 4 0 
5 8 0 
8 6 0 
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ARB FARE ATE, MIREN REE aE TB EPA Jig BET TUR ER 
DATAE, ° ATI eS A ERK T BPERIB. BoE Be i BR 
MER —#E (8 8, o ÉTB-1028 H1 T — 2x 20B BER F LABBESRGE RET. ^ TES 


一 下 行列 式 det() FIESTA » xx FUSE PTUS EUER DATE, o WAR KE 
阵 的 某 列 全 是 0， 则 行列 式 也 为 0。 RA SBR ISH, BT DGIO 
法 运算 ， 因 此 该 矩阵 无 法 求 逆 。 这 了 束 是 要 求 逆 的 窍 阵 必须 满 秩 的 原 


b11 b12 b22 -b12 
B = B's m 
b21 b22 det(B)| -b21 b11 
det(B)=b11b22 — b12b21 


图 B-10 DBEB HEERE ^ FAS SRE CH REL 1/det(B) 
Tap ay 不 能 为 0。 如 果 B WARE, WM det(B) 为 0， 此 时 无 
HOW p EXE e 


EEE SIT 2x24BRPERJSK3S DERE o BÉ T RAAME ERK 
逆 ， 你 会 发 现 这 次 要 复杂 得 多 。 图 B-11 给 出 了 一 个 3x3 和 矩阵 的 求 逆 计算 
过 程 。 

c11 c12 c13 
C = |c21 c22 c23 


c31 c32 c33 


€22c33 - c23cc32 c13c32 - c12c33 c12c23 - c13c22 
c -一 1 c23c31 - c21c33 c11c33 - c13c31 c13c21 - c11c23 


det(C) 
c21c32 - c22c31 c31c12 - c11c32 c11c22 - c12c21 


det(B)-c11(c22c33-c23c32) + c12(c23c31-c33c21) + c13(c21c32-c22c31) 


图 B-11 一 个 3x3 的 矩阵 C 的 逆 矩 阵 求解 过 程 。 和 矩阵 更 大 ， 手 工 求解 的 
难度 也 加 大 。 一 个 大 小 为 n 的 方 阵 的 行列 式 包含 n ! 个 元 素 


一 个 值得 吸取 的 教训 束 是 由 于 行列 式 有 n ! 个 元 素 ， 多 元 到 的 矩阵 求 敢 
十 分 复杂 。 通 常情 况 下 不 会 只 处 理 上 面 那么 小 的 矩阵 ， 因 此 矩阵 求 逆 
通 第 使 用 计算 机 完成 。 


B.3 ”矩阵 范 数 


范 数 是 一 个 机 器 学 习 领 域 常用 的 概念 。 和 矩阵 的 范 数 通 当 写 成 在 矩阵 的 
PTA IN EAR EAL, AA TAI 。 下 面 完 介绍 向 量 的 郊 数 。 


问 量 的 范 数 运算 会 给 同 量 赋予 一 个 正 标量 值 。 可 以 把 同 量 范 数 看 成 是 

向 量 的 长 度 ， 这 在 很 多 机 器 学 习 算法 比如 k 近 邻 中 都 非常 有 用 。 对 于 向 

md ， 其 长 度 为 V(3^2+4^2 )=5。 这 也 常常 称 为 向 量 的 2 范式 ， 写 
Ilzll 或 pizii? ° 


在 某 些 机 器 学 习 算 法 当中 ， 比 如 lasso 回 归 ， 采 用 其 他 的 范 数 计算 方法 
可 能 效果 更 好 。 其 中 L1 范 数 也 很 流行 ， 它 的 为 一 个 名 称 是 曼哈顿 距离 
(Manhattan distance)。 问 量 z HJL11862 733-4-7, SE ||zl| ,。 可 以 定 
义 任意 阶 范 数 ， 其 形式 化 定义 如 下 : 


六 x ‘Up 
lel, =| xk 
“ls Lale 
\ I=] j 


向 量 范 数 主 要 用 于 确定 向 量 作为 输入 时 的 大 小 。 除 了 上 述 定 义 外 ， 用 
人 
J 标量 值 。 


B.4 KẸ 


除了 和 矩阵 和 向量 的 加 减 乘除 运算 之 外 ， 还 可 以 对 短 阵 进行 微 积分 运 
TE, 包括 对 向 量 和 矩阵 的 求 导 。 在 诸如 梯度 下 降 的 算法 中 需要 用 到 这 
一 点 。 这 里 的 求 导 并 不 比 常 规 的 求 导 更 难 ， 只 是 要 清楚 这 里 的 概念 和 
AES 


siny — y 


4| I 3 | 
对 于 向 量 sin3x-4y] ”可 以 对 x 求 导 ， 得 到 另 一 个 向 量 


dA || cosy 
dx | 3cos3x 

。 如 果 A 要 对 另 一 个 回 量 求 导 ， 会 得 到 一 个 矩阵 。 比 
如 ， 另 一 个 回 量 


如 果 A (一 个 2x1 的 向 量 ) 要 对 B (SS XII) 求 导 ， 会 得 到 
如 下 3x2 的 矩阵 : 
cosx 3cosx 
"RE ] 
dB 


0 0 


更 一 般 地 ， 有 : 


d4 |da d42 
dB | dl dy2 


附录 C ”概率 论 复习 


本 附录 复习 概率 论 的 一 些 基本 概念 。 概 率 论 博大 精深 而 本 书 篇 幅 有 
限 ， 如 果 读 者 已 经 研究 过 概率 论 ， 可 以 将 本 附 孙 视 为 一 个 简单 的 复习 


材料 。 如 采 读 者 尚未 踏足 概率 论 及 其 相关 知识 ， 作 者 建议 在 这 个 浅显 
的 附 永 之 外 再 做 一 些 扩展 阅读 。 例 如 ，Khan 学 院 已 经 为 目 学 者 提供 了 
很 多 有 用 的 入 门 讲 座 和 视频 '。 


1. Khan Academy. http://www.khanacademy.org/?video=basic-probability#probability. 


C.1 概率 论 简介 


概率 (probability) 定 义 为 一 件 事情 发 生 的 可 能 性 。 事 情 发 生 的 概率 可 以 
通过 观测 数据 中 的 事件 发 生 次 数 来 计算 ， 事 件 发 生 的 概率 等 于 该 事件 
发 生 的 次 数 除 以 所 有 事件 发 生 的 辟 次 数 。 下 面 举 出 一 些 事件 的 例子 。 


。 扔 出 一 枚 硬币 ， 结 果 头 像 朝 上 © 

e 一 个 新 生 要 儿 是 女孩 。 

。 一 架 飞 机 安全 着 陆 。 

。 RERNA ° 
观察 上 述 事 件 ， 下 面 分 析 一 下 如 何 计算 它们 的 概率 。 例 如 我 们 收集 到 
美国 五 大 湖 地 区 的 一 些 天 气 数据 ， 在 该 数据 里 ， 天 气 被 分 成 二 类 : { 晴 
天 、 雨 天 、 雪 天 }， 如 表 C-1 所 示 。 


表 C-1 五 大 湖 地 区 去 年 冬天 的 天 气 观测 数据 


编号 星期 几 FRE XA 


我 们 可 以 借用 该 表 信 计 出 当地 的 天 气 是 下 雪 的 概率 。 表 C-1 的 数据 只 有 
7 个 观察 值 ， 并 且 观 察 时 间 也 不 连续 ， 但 这 是 目前 所 能 获得 的 所 有 数 
据 。 如 果 将 事件 的 概率 记 做 P (SEF), ALA Re SAAB (KA 
下 要 ) 可 以 用 下 式 计算 ; 


i ad. r4 N m 
FERKA 2 

ra he X 7 

mu 


PCKAU FH) 


f 
VAX 


这 里 将 上 壕 概 率 记 做 是 P (天 气 = 下 雪 )， 但 天 气 是 唯一 能 取 到 “下 雪 ” 这 
个 值 的 变量 ， 所 以 此 概率 还 可 以 简写 为 P (下 雪 )。 根 据 概率 的 基本 定 
义 ， 我 们 继续 计算 出 天 气 = 下 雨 的 概率 和 天 气 = 晴 的 概率 。 请 读者 自行 
检查 一 下 是 否 有 P (下 雨 )=2/7 和 P( 晴 )=3/7。 上 文 介绍 了 如 何 计算 变量 取 
到 某 个 特定 值 的 概率 ， 若 需要 同时 关注 多 个 变量 应 该 怎么 办 呢 ? 


C2 联合 概率 


如 果 两 件 事 同时 发 生 概 率 应 当 如 何 计算 呢 ， 例 如 天 气 = 下 雪 且 星期 几 

-2? 不 难 想到 ， 这 个 概率 应 该 等 于 两 件 事情 都 为 真 的 次 数 除 以 所 有 事 
件 发 生 的 总 次 数 。 简 单 来 计算 一 下 ， 只 有 一 个 样本 点 满足 天 气 = 下 雪 且 
星期 几 =2， 所 以 这 个 概率 应 当 是 17。 这 种 联合 事件 的 概率 一 般 用 逗号 
隅 开 的 变量 来 表示 : P (天 气 = 雪 天 ， 星 期 几 =2)。 一 般 地 ， 对 事件 Xx ALY 
来 说 ， 对 应 的 联合 概率 应 该 记 为 P(X, Y) ° 


读者 可 能 还 看 到 过 一 些 形 如 P(X, YZ) 的 概率 ， 这 里 的 竖 杠 代表 条 件 概 
率 ， 所 以 这 个 式 子 表示 : 在 给 定 事件 2 的 条 件 下 事件 X 和 Y 都 发 生 的 概 
率 。 条 件 概率 的 内 容 可 以 参见 第 4 章 。 


要 进行 概率 运算 ， 还 需要 了 解 儿 条 基本 的 运算 规则 。 一 旦 掌握 了 这 些 
规则 ， 我 们 就 可 以 计算 代数 表达 式 的 概率 ， 并 能 从 已 知 量 推出 未 知 
量 。 下 市 将 对 这 些 基 本 规则 进行 逐一 介绍 。 


C.3 ”概率 的 基本 准则 


概率 的 基本 准则 使 我 们 可 以 在 概率 上 做 数学 演算 ， 这 些 准则 与 代数 里 
的 公理 一 样 ， 需 要 牢记 。 本 书 将 对 它们 依次 做 出 介绍 ， 并 用 表 C-1 的 数 
据 做 辅助 分 析 。 


可 以 看 到 ， 前 面 计算 出 的 概率 都 是 分 数 。 如 果 数 据 集 里 的 所 有 天 气 都 
是 雪 天 ， 那 么 P (下 雪 ) 将 会 是 777， 即 等 于 1。 如 果 数 据 集 里 没有 雪 天 ， 


那么 P (下 要) 将 会 是 007， 即 等 于 0。 所 以 对 任何 事件 X 来 说 ，0<PCXO)<1 


雪 天 的 求 补 事件 记 为 ~ 下 雪 或 者 "下 雪 。 求 补 意 味 着 除了 给 定 事 件 (下 
雪 ) 以 外 的 任何 其 他 事件 。 在 表 C-1 的 天 气 中 ， 其 他 事件 包括 下 十 和 
晴 。 在 仅 有 这 三 种 可 能 的 天 气 事件 下 ，P (~ 下 雪 ) = P (下 雨 )+P (晴天 ) 
= 5/7, 而 同时 P (RS) =2/7, MAP (下 雪 ) +P (- 下 雪 )=1。 另 一 种 说 法 
是 下 雪 + -下 雪 事 件 总 为 真 。 用 图 表 将 其 可 视 化 能 帮助 我 们 理解 这 些 事 
件 间 的 关系 ， 其 中 一 种 很 有 用 的 图 惑 是 文 氏 图 ， 它 在 去 不 集合 的 时 候 
非常 有 效 。 图 C-1 展 示 了 上 所 有 可 能 的 天 气 状况 的 事件 集合 。 雪 天 占据 了 
图 中 的 圆圈 内 的 区 域 ， 而 非 雪 天 则 占据 了 其 他 区 域 。 


p 
"- ) C EER 
图 C-1 上 图 的 圆圈 内 表示 “下 雪 天 ”事件 (将 其 他 事件 排除 在 圆圈 之 


Sh) ， 下 图 的 圆圈 外 则 表示 除 “ 雪 天 ”外 的 其 他 所 有 事件 。 这 样 ， 雪 天 
和 非 雪 天 就 包括 了 所 有 事件 。 


概率 论 的 最 后 一 个 基本 准则 是 关于 多 变量 的 。 图 C-2 的 文 氏 图 描述 了 表 
C- 1 中 的 两 个 事件 的 关系 ， 事件 一 是 “天 气 = BU, "rS 

儿 =2”。 这 两 个 事件 不 古 互 不 的 ， 也 丈 是 说 它们 可 能 同时 发 生 。 有 些 下 
E BERE Er 些 下 雪 天 不 是 星期 二 。 因此 这 两 个 事件 在 图 

中 的 区 域 有 一 登 但 并 不 完全 重合 。 


图 C-2 表示 两 个 相交 事件 的 文 氏 图 


图 C-2 中 的 重合 区 域 被 认为 是 两 个 事件 的 交集 ， 可 以 直观 地 记 做 (天 气 = 
IK) AND (星期 几 =2)。 如 何 计算 P (( 天 气 = 雪 天 ) OR (星期 几 =2)) 呢 ? 
可 以 用 减 去 重 琶 部 分 的 方法 来 避免 重复 计数 : P ( 雪 天 AND 星期 二 )=P 
( 雪 天 )+P (星期 二 )-P ( 雪 天 AND 星期 二 )。 如 果 将 上 式 一 般 化 就 得 到 式 
F: P(X ORY)=P(X)+P(Y)-P(X ANDY)。 该 公式 很 有 意义 ， 它 在 
AND 和 OR 的 概率 之 间 搭 起 了 桥梁 。 


通过 这 些 基本 的 概率 运算 准则 就 可 以 计算 出 各 种 事件 的 概率 。 通 过 假 
设 和 先 验 知识 可 以 推算 出 未 观测 到 的 事件 的 概率 。 


附录 D 资源 


数据 收集 是 件 非 常 有 趣 的 事情 ， 但 当 你 对 某 算法 灵感 涌 来 并 试图 做 一 
些 实验 的 时 候 ， 临 时 找 数 据 也 是 件 很 头疼 的 事情 。 本 附录 提供 了 一 些 
可 用 数据 集 的 超 链 接 。 这 些 数据 集 的 大 小 从 20 行 到 万 亿 行 不 等 ， 从 中 
找到 所 需 数 据 应 该 不 是 一 件 难 事 : 

e http://archive.ics.uci.edu/m1l/ 一 一 最 有 名 的 机 器 学 习 数 据 资 源 来 自 美 


国 加 州 大 学 欧文 分 校 。 虽 然 本 书 仅 使 用 了 这 其 中 的 不 到 10 个 数据 
集 ， 但 该 数据 库 已 经 提供 了 200 多 个 可 用 的 数据 集 。 其 中 很 多 数据 


党 被 用 来 比较 算法 的 性 能 ， 基 于 这 些 资 源 ， 人 研究 人 员 可 以 得 到 相 
对 客观 的 性 能 比较 结 


http://aws.amazon.com/publicdatasets/ WAR RET KAGE 26 
好 者 ， 这 个 链接 尤其 不 能 错过 。Amazon 拥 有 真正 的 “大 ”数据 ， 包 
括 美 国人 口 普查 数据 、 人 类 基因 组 注释 的 数据 、 一 个 150 GB 的 日 

志 (维基 百科 的 页 面 流量 ) 和 一 个 500 GB 的 数据 库 (维基 百科 的 

链接 数据 ) 。 


http:/www.data.gov 一 -Data.gov 司 动 于 2009 年 ， 目 的 是 使 公众 可 以 
更 加 方便 地 访问 政府 的 数据 。 一 旦 政府 的 某 份 数 据 可 以 公开 ， 他 
们 就 将 该 数据 发 布 。 到 2010 年 ， 该 网 站 就 已 经 拥有 了 250,000 个 数 
据 集 。 但 网 站 还 能 活路 多久 尚未 可 知 ， 因 为 2011 年 的 时 候 联 邦 政 
府 减 少 了 对 电子 政府 (Electronic Government Fund， 该 网 站 的 资金 
来 源 ) 的 基金 支持 。 该 网 站 提供 的 数据 主要 包含 一 些 被 召回 的 产 
品 和 破产 的 银行 信息 等 。 


http://www.data.gov/opendatasites Data.gov 还 维持 了 一 个 包括 美 
EN VOEE 它们 都 提供 类 似 的 
Dn o 


http://www.infochimps.com/ Infochimps 是 一 个 公司 ， 公 司 目 标 
是 让 每 个 人 可 以 访问 世界 上 所 有 的 数据 集 ， 目 前 它 已 开放 了 14,000 
多 个 数据 集 的 下 载 。 与 本 列表 中 的 其 他 站 点 不 同 ，Infochimps 的 其 
中 一 些 数据 集 是 需要 购买 的 。 当 然 ， 你 也 可 以 在 该 网 站 上 出 售 自 
己 的 数据 集 。 


http://www.datawrangling.com/some-datasets-available-on-the-web 
— Data Wrangling 是 一 个 私人 的 博客 ， 提 供 了 网 络 上 大 量 数据 集 
的 链接 。 虽 然 许久 没有 更 新 ， 但 其 中 很 多 数据 集 仍 相当 不 错 。 


http:/metaoptimize.com/qa/questions/ 一 -一 该 站 点 并 不 捉 供 数据 资 
源 ， 而 是 一 个 问答 系统 的 站 点 ， HET E 。 在 这 里 有 
很 多 高 手 乐意 伸 出 援手 、 帮 助 解 答 问 题 。 
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